專利名稱:語音處理設(shè)備和方法及程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音處理設(shè)備和語音處理方法及程序,更具體地講,涉及一種能 夠可靠地從輸入語音估計正確意圖的語音處理設(shè)備和語音處理方法及程序。
背景技術(shù):
近年來,已開發(fā)了應(yīng)用語音識別的各種產(chǎn)品或服務(wù)。語音識別指的是使用指示聲 學(xué)特征的特征量的出現(xiàn)概率等識別與輸入語音對應(yīng)的單詞序列的技術(shù)。圖1是示出使用語音識別的現(xiàn)有技術(shù)中的語音識別設(shè)備的配置例子的框圖。圖1中的語音識別設(shè)備1包括輸入部分21、AD轉(zhuǎn)換部分22、特征提取部分23、匹 配部分24、聲學(xué)模型數(shù)據(jù)庫25、詞典數(shù)據(jù)庫26和語法數(shù)據(jù)庫27?;谟脩粽f話(utterance)的語音輸入到包括傳聲器等的輸入部分21。輸入部分 21把輸入語音轉(zhuǎn)換成作為模擬電信號的語音信號以便輸出。AD轉(zhuǎn)換部分22通過采樣和量化把從輸入部分21輸出的模擬輸入語音信號轉(zhuǎn)換成 數(shù)字輸入語音信號以便輸出。特征提取部分23以適當?shù)臅r間間隔對從AD轉(zhuǎn)換部分22輸出的輸入語音信號進 行頻率分析,由此提取指示語音的譜或其它聲學(xué)特征的參數(shù)。以這種方法提取的參數(shù)對應(yīng) 于輸入語音信號的特征量。從特征提取部分23輸出輸入語音信號的特征量的時間序列(以 下,稱為特征量序列)。特征提取部分23以這種方法提取輸入語音信號的特征量序列,并確定輸入語音 信號的語音區(qū)。語音區(qū)表示從說話的開始時刻到其結(jié)束時刻的區(qū)。匹配部分24確定與由特征提取部分23提取的特征量序列最相符的單詞序列,并 輸出確定的單詞序列作為語音識別結(jié)果。以下,由匹配部分24如此執(zhí)行的處理稱為匹配處 理。匹配部分24針對由特征提取部分23確定的語音區(qū)執(zhí)行匹配處理,由此順序輸出針對 所有語音區(qū)的語音識別結(jié)果。在這個方面,當執(zhí)行匹配處理時,匹配部分24使用聲學(xué)模型數(shù)據(jù)庫25、詞典數(shù)據(jù) 庫26和語法數(shù)據(jù)庫27。聲學(xué)模型數(shù)據(jù)庫25中記錄有指示作為識別目標的語音的語言中諸如單個音素或 音節(jié)的每個預(yù)定單位的聲學(xué)特征的聲學(xué)模型。作為聲學(xué)模型,例如,能夠采用HMM(隱馬爾 可夫模型)。詞典數(shù)據(jù)庫26中記錄有描述關(guān)于作為識別目標的語音的每個單詞的發(fā)音的信息 (以下,稱為發(fā)音信息)的詞典。因此,每個單詞和聲學(xué)模型彼此相關(guān)。結(jié)果,與詞典數(shù)據(jù)庫 26中記錄的每個單詞相對應(yīng)地獲得聲學(xué)標準模式。語法數(shù)據(jù)庫27中記錄有描述如何能夠連接詞典數(shù)據(jù)庫26中記錄的各個單詞的語 法規(guī)則。作為語法規(guī)則,例如,能夠采用正規(guī)語法、上下文無關(guān)語法或包括統(tǒng)計詞連接概率 的N元組語法。例如,當在聲學(xué)模型數(shù)據(jù)庫25中采用HMM作為聲學(xué)模型的情況下,匹配部分24根據(jù)由特征提取部分23提取的特征量序列累計特征量的出現(xiàn)概率。也就是說,由于使用上述 標準模式累計每個單詞的特征量的出現(xiàn)概率,所以為每個單詞計算聲學(xué)評估值(以下,稱 為聲學(xué)得分)。另外,例如,當在語法數(shù)據(jù)庫27中采用二元組作為語法規(guī)則的情況下,匹配部分 24在相對于前面的單詞的連接概率的基礎(chǔ)上計算每個單詞的語言概率。每個單詞的這種語 言概率被數(shù)字化為語言評估值(以下,稱為語言得分)。匹配部分24在通過針對每個單詞總體上評估聲學(xué)得分和語言得分而獲得的最終 評估值(以下,稱為總得分)的基礎(chǔ)上,確定與提供給輸入部分21的輸入語音最相符的單 詞序列。作為語音識別結(jié)果,輸出確定的單詞序列。例如,在用戶說出“KYO-WA-II-TENKI-DESUNE(今天天氣不錯)”的情況下,輸出 “KY0”、“WA”、“II”、“TENKI”和“DESUNE”的單詞序列作為語音識別結(jié)果。當確定了這種單 詞序列時,如上所述,對每個單詞給予聲學(xué)得分和語言得分。在把這種語音識別設(shè)備應(yīng)用于機器人的情況下,機器人的操作應(yīng)該與根據(jù)語音識 別識別出的單詞序列相關(guān)。作為實現(xiàn)這種相關(guān)的技術(shù),存在下面的第一技術(shù)和第二技術(shù)。第一技術(shù)是這樣的技術(shù)根據(jù)語音識別識別出單詞序列,并且相應(yīng)的操作直接與 識別出的單詞序列相關(guān)。例如,在用戶說出“TATTE(起立),,的情況下,能夠控制機器人以 執(zhí)行與根據(jù)語音識別識別出的單詞序列“TATTE”對應(yīng)的操作,即控制機器人起立。第二技術(shù)是這樣的技術(shù)從根據(jù)語音識別識別出的單詞序列提取說話中暗含的用 戶意圖,并且使相應(yīng)的操作與該意圖相關(guān)。根據(jù)第二技術(shù),例如,就用戶對機器人說出的話 (諸如,“TATTE(起來)”、“0ΚΙΤΕ(起床)”、“TACHIAGATTE(起立)”)而言,根據(jù)語音識別識 別出各個說話。由于估計以這種方法識別出的各個說話中暗含的意圖(例如,在這種情況 下的“TATTE-KUDASAI (請起立),,),所以能夠控制機器人以執(zhí)行與該意圖對應(yīng)的操作(例 如,在這種情況下的起立操作)。一般地,盡管一個操作對應(yīng)于一個意圖,但存在多個說話對應(yīng)于一個意圖。因此, 根據(jù)第一技術(shù),由于一個操作應(yīng)該對應(yīng)于一個單詞序列,所以同一操作應(yīng)該分別對應(yīng)于與 一個意圖對應(yīng)的多個單詞序列。另一方面,根據(jù)第二技術(shù),一個操作必須對應(yīng)于與多個單詞 序列對應(yīng)的一個意圖。因此,作為使操作與根據(jù)語音識別識別出的單詞序列相關(guān)的方法,第 二技術(shù)比第一技術(shù)更合適。為了實現(xiàn)這樣的第二技術(shù),采用被配置為從根據(jù)語音識別識別出的單詞序列估計 說話中暗含的用戶意圖的設(shè)備。以下,這種設(shè)備稱為語音理解設(shè)備。為了估計說話中暗含的用戶意圖,現(xiàn)有技術(shù)中的語音理解設(shè)備在與指示一個意圖 的意圖信息對應(yīng)的單詞詞典和語法規(guī)則的基礎(chǔ)上確定與基于說話的輸入語音信號相符的 單詞序列。針對多條意圖信息中的每條意圖信息確定這種單詞序列。然后,這個語音理解 設(shè)備針對多條意圖信息中的每條意圖信息計算確定的單詞序列和輸入語音信號之間的相 似性。具體地講,針對多條意圖信息中的每條意圖信息計算指示聲學(xué)相似性的聲學(xué)得分和 指示語言相似性的語言得分作為指示相似性的值。然后,現(xiàn)有技術(shù)的語音理解設(shè)備使用這 兩個得分估計多條意圖信息之中與輸入語音信號對應(yīng)的意圖(例如,參見日本未審專利申 請公開 No. 2006-53203)。
發(fā)明內(nèi)容
然而,使用語音識別的現(xiàn)有技術(shù)中的語音理解設(shè)備可能錯誤地估計意圖。因此, 如果機器人執(zhí)行與這種意圖信息對應(yīng)的操作,則該操作被識別為并非用戶所希望的錯誤操作。因此,希望提供一種能夠可靠地從輸入語音估計正確意圖的技術(shù)。根據(jù)本發(fā)明的實施例,提供了一種語音處理設(shè)備,該語音處理設(shè)備包括得分計算 裝置,計算指示在用戶說話的基礎(chǔ)上輸入的語音信號與指示多個意圖中的每個意圖的多條 意圖信息中的每條意圖信息的符合度的得分;意圖選擇裝置,在由得分計算裝置計算的得 分的基礎(chǔ)上選擇所述多條意圖信息之中指示用戶說話的意圖的意圖信息;以及意圖可靠性 計算裝置,在由得分計算裝置計算的得分的基礎(chǔ)上計算由意圖選擇裝置選擇的意圖信息的 可靠性。得分計算裝置可包括聲學(xué)得分計算裝置,針對所述多條意圖信息中的每條意圖 信息計算聲學(xué)得分作為指示語音信號與意圖信息的聲學(xué)符合度的得分;語言得分計算裝 置,針對所述多條意圖信息中的每條意圖信息計算語言得分作為指示語音信號與意圖信息 的語言符合度的得分;以及預(yù)得分計算裝置,針對所述多條意圖信息中的每條意圖信息計 算預(yù)得分作為在每個發(fā)生概率的基礎(chǔ)上預(yù)先確定的得分。預(yù)得分計算裝置可響應(yīng)于輸入語音信號時的上下文(context)來調(diào)整所述多條 意圖信息中的每條意圖信息的預(yù)得分。得分計算裝置可計算語音信號中的語音區(qū)的得分。得分計算裝置還可以計算所述多條意圖信息之中的不指示特定意圖的意圖信息 的得分,并且意圖選擇裝置在選擇了不指示所述特定意圖的意圖信息的情況下可以確定與 語音信號對應(yīng)的用戶說話是不指示特定意圖的無意義說話。得分計算裝置可以對聲學(xué)得分、語言得分和預(yù)得分中的每個得分給予權(quán)重,并且 意圖可靠性計算裝置可以調(diào)整每個權(quán)重并在均被給予了調(diào)整后的權(quán)重的得分的基礎(chǔ)上計 算可靠性。語音處理設(shè)備還可以包括管理裝置,基于由意圖選擇裝置選擇的意圖信息管理 輸出。根據(jù)本發(fā)明的其它實施例,提供了一種與根據(jù)本發(fā)明實施例的上述語音處理設(shè)備 對應(yīng)的語音處理方法及程序。根據(jù)本發(fā)明其它實施例的語音處理方法及程序包括下述步驟計算指示在用戶說 話的基礎(chǔ)上輸入的語音信號與指示多個意圖中的每個意圖的多條意圖信息中的每條意圖 信息的符合度的得分;在計算的得分的基礎(chǔ)上選擇所述多條意圖信息之中指示用戶說話的 意圖的意圖信息;以及在計算的得分的基礎(chǔ)上計算選擇的意圖信息的可靠性。如上所述,根據(jù)本發(fā)明的實施例,可以可靠地從輸入語音估計正確意圖。
圖1是示出現(xiàn)有技術(shù)中的語音識別設(shè)備的配置例子的框圖;圖2是示出根據(jù)本發(fā)明實施例的語音理解設(shè)備的配置例子的框圖;圖3是示出語音理解處理的例子的流程圖4是示出多匹配處理的例子的流程圖;圖5是示出意圖信息的例子的示圖;圖6是示出詞典數(shù)據(jù)庫中記錄的詞典的例子的示圖;圖7是示出三元組表格的例子的示圖;圖8是示出二元組表格的例子的示圖;圖9是示出一元組表格的例子的示圖;圖10是示出意圖信息的例子的示圖;圖11是示出詞典數(shù)據(jù)庫中記錄的詞典的例子的示圖;圖12是示出多匹配處理的執(zhí)行結(jié)果的示圖;圖13是示出多匹配處理的執(zhí)行結(jié)果的示圖;圖14是示出上下文的狀態(tài)轉(zhuǎn)變的例子的狀態(tài)轉(zhuǎn)變圖;圖15A和圖15B是示出輸入語音信號中所包括的無聲區(qū)的示圖;圖16是示出每個單詞的開始時刻和結(jié)束時刻的示圖;圖17是示出無意義說話確定處理的例子的流程圖;圖18是示出實驗結(jié)果的示圖;圖19是示出根據(jù)本發(fā)明實施例的信息呈現(xiàn)設(shè)備的配置的框圖;圖20是示出信息呈現(xiàn)處理的例子的流程圖;以及圖21是示出根據(jù)本發(fā)明實施例的語音處理設(shè)備的硬件的配置例子的框圖。
具體實施例方式以下將描述根據(jù)本發(fā)明的語音理解設(shè)備的五個實施例(以下,稱為第一至第五實 施例)。按下面的次序?qū)λ鼈冞M行描述。1、第一實施例2、第二實施例(上下文用于預(yù)得分的調(diào)整的例子)3、第三實施例(無聲區(qū)去除的應(yīng)用例子)4、第四實施例(無意義說話確定的應(yīng)用例子)5、第五實施例(語音理解結(jié)果的應(yīng)用例子)1、第一實施例[根據(jù)本發(fā)明的語音理解設(shè)備的配置例子]圖2是示出根據(jù)本發(fā)明的作為語音處理設(shè)備的語音理解設(shè)備的實施例的配置例 子的框圖。圖2中的語音理解設(shè)備41包括輸入部分61、AD轉(zhuǎn)換部分62、特征提取部分63、 多匹配部分64、聲學(xué)模型數(shù)據(jù)庫65、意圖模型66-1至66-N、意圖確定部分67、意圖可靠性 計算部分68和輸出部分69?;谟脩粽f話的語音輸入到包括傳聲器等的輸入部分61。輸入部分61把輸入語 音轉(zhuǎn)換成作為模擬電信號的語音信號以便輸出。以下,從輸入部分61輸出的語音信號稱為 輸入語音信號。AD轉(zhuǎn)換部分62通過采樣和量化把從輸入部分61輸出的模擬輸入語音信號轉(zhuǎn)換成 數(shù)字輸入語音信號以便輸出。
特征提取部分63以適當?shù)臅r間間隔對從AD轉(zhuǎn)換部分62輸出的輸入語音信號進行頻率分析,由此提取指示語音的譜或其它聲學(xué)特征的參數(shù)。以這種方法提取的參數(shù)對應(yīng) 于輸入語音信號的特征量。從特征提取部分63輸出輸入語音信號的特征量的時間序列(以 下,稱為特征量序列)。特征提取部分63以這種方法提取輸入語音信號的特征量序列,并確定輸入語音 信號的語音區(qū)。語音區(qū)表示從說話的開始時刻到其結(jié)束時刻的區(qū)。例如,特征提取部分63 在輸入語音信號的功率等的基礎(chǔ)上僅提取說話的區(qū),由此檢測語音區(qū)。聲學(xué)模型數(shù)據(jù)庫65中記錄指示作為識別目標的語音的語言中諸如單個音素或音 節(jié)的每個預(yù)定單位的聲學(xué)特征的聲學(xué)模型。作為聲學(xué)模型,例如,能夠采用HMM(隱馬爾可 夫模型)。意圖模型66-k (k是1到N的任意整數(shù)值)包括意圖信息存儲部分91-k、詞典數(shù)據(jù) 庫92-k、語法數(shù)據(jù)庫93-k和預(yù)得分存儲部分94-k。指示與意圖模型66-k對應(yīng)的意圖的信息(以下,稱為意圖信息)存儲在意圖信息 存儲部分91-k中。描述關(guān)于作為識別目標的語音的每個單詞的發(fā)音的信息(以下,稱為說話信息) 并且具有根據(jù)意圖信息存儲部分91-k中所存儲的意圖信息定義的單詞的詞典被記錄在詞 典數(shù)據(jù)庫92-k中。因此,每個單詞與聲學(xué)模型相關(guān)。結(jié)果,獲得與詞典數(shù)據(jù)庫92-k中記錄 的每個單詞對應(yīng)的聲學(xué)標準模式。給出詞典數(shù)據(jù)庫92-k中記錄的各個單詞的連接概率的預(yù)定語法規(guī)則(諸如,二元 組語法或三元組語法)被記錄在語法數(shù)據(jù)庫93-k中。特別地,語法數(shù)據(jù)庫93-k中記錄的 語法規(guī)則被配置為對指示意圖信息存儲部分91-k中存儲的意圖信息的單詞序列給予得 分值。對于意圖模型66-k預(yù)先給出的得分值(以下,稱為預(yù)得分值)存儲在預(yù)得分存儲 部分94-k中。用于針對輸入語音信號的意圖信息計算指示符合度的得分的多匹配部分64包 括聲學(xué)得分計算部分81、語言得分計算部分82和預(yù)得分計算部分83。多匹配部分64與聲學(xué)模型數(shù)據(jù)庫65 —起使用一個意圖模型66_k,并確定與由特 征提取部分63提取的特征量序列(輸入語音信號)最相符的單詞序列。也就是說,在使用 針對與一個意圖模型66-k對應(yīng)的意圖(由意圖信息指示的意圖)定義的單詞能夠形成的 單詞序列之中,確定與輸入語音信號最相符的單詞序列。在多匹配部分64中,針對所述多 個意圖模型66-1至66-N中的每個意圖模型,確定與輸入語音信號最相符的單詞序列。另外,在多匹配部分64中,對于針對所述多個意圖模型66-1至66-N中的每個意 圖模型確定為與輸入語音信號最相符的單詞序列(使用針對相應(yīng)意圖定義的單詞形成的 單詞序列),計算聲學(xué)得分和語言得分。聲學(xué)得分由聲學(xué)得分計算部分81計算,語言得分由 語言得分計算部分82計算。具體地講,聲學(xué)得分計算部分81計算從由多匹配部分64針對一個意圖模型66-k 確定的單詞序列中所包括的單詞模型觀察到特征量序列的概率(出現(xiàn)概率),并在出現(xiàn)概 率的基礎(chǔ)上計算每個單詞的聲學(xué)得分。語言得分計算部分82計算由多匹配部分64針對一個意圖模型66-k確定的單詞序列中所包括的單詞的連接(鄰接)概率,并在該概率的基礎(chǔ)上計算每個單詞的語言得分。針對所述多個意圖模型66-1至66-N中的每個意圖模型執(zhí)行聲學(xué)得分計算部分81 和語言得分計算部分82的各個處理。結(jié)果,在多匹配部分64中,對于針對所述多個意圖模 型66-1至66-N中的每個意圖模型確定的單詞序列,為每個單詞計算聲學(xué)得分和語言得分。另外,預(yù)得分計算部分83針對所述多個意圖模型66-1至66_N中的每個意圖模型 計算預(yù)得分。預(yù)得分是如上所述在一條意圖信息的發(fā)生概率的基礎(chǔ)上預(yù)先確定的值,并存儲在 與一條意圖信息對應(yīng)的意圖模型66-k的預(yù)得分存儲部分94-k中。也就是說,預(yù)得分計算 部分83在與一條意圖信息對應(yīng)的意圖模型66-k的預(yù)得分存儲部分94-k中存儲的預(yù)得分 的上下文的基礎(chǔ)上,針對與意圖模型66-k對應(yīng)的意圖信息計算預(yù)得分。在所有的意圖以相 同的概率發(fā)生的情況下,計算相同的得分值作為預(yù)得分。以下,如上所述的與多匹配部分64相應(yīng)的一系列處理稱為多匹配處理。也就是說,作為多匹配處理的結(jié)果,針對所述多個意圖模型66-1至66-N中的每個 意圖模型計算聲學(xué)得分、語言得分和預(yù)得分,并把它們提供給意圖確定部分67和意圖可靠 性計算部分68。意圖確定部分67針對一個意圖模型66-K計算通過總體上評估從多匹配部分64 提供的聲學(xué)得分、語言得分和預(yù)得分而獲得的總得分。針對所述多個意圖模型66-1至66-N 中的每個意圖模型計算這種總得分。因此,意圖確定部分67選擇與具有總得分之中的最高 總得分的意圖模型66-t(t是1到N的任何整數(shù))對應(yīng)的意圖信息作為與用戶的說話對應(yīng) 的意圖信息。以這種方法,總得分用于估計與用戶的說話對應(yīng)的意圖。針對由意圖確定部分67選擇的意圖模型66-t,意圖可靠性計算部分68在從多匹 配部分64提供的聲學(xué)得分、語言得分和預(yù)得分的基礎(chǔ)上計算可靠性。針對由意圖確定部分67選擇的意圖信息,輸出部分69輸出給予了由意圖可靠性 計算部分68針對與意圖信息對應(yīng)的意圖模型66-t計算的可靠性的信息作為語音理解結(jié)果。[語音理解處理]圖3是示出與語音理解設(shè)備41相應(yīng)的語音理解處理的例子的流程圖。在步驟Sl中,輸入部分61把輸入語音轉(zhuǎn)換成語音信號。也就是說,輸入用戶說出 的語音并將其輸出為模擬輸入語音信號。在步驟S2中,AD轉(zhuǎn)換部分62對語音信號執(zhí)行AD轉(zhuǎn)換處理。也就是說,對模擬輸 入語音信號進行AD轉(zhuǎn)換,并輸出作為結(jié)果獲得的數(shù)字輸入語音信號。在步驟S3中,特征提取部分63從輸入語音信號提取特征量序列并確定語音區(qū)。在步驟S4中,作為得分計算設(shè)備的多匹配部分64對提取的特征量序列執(zhí)行多匹 配處理。這里,將描述多匹配處理的詳細例子。圖4是示出多匹配處理的例子的流程圖。在步驟S31中,多匹配部分64在多個意圖模型66-1至66-N之中確定一個意圖模 型66-k作為處理目標。在步驟S32中,多匹配部分64確定與由特征提取部分63提取的特征量序列(輸入語音信號)最相符的單詞序列。在這種情況下,與聲學(xué)模型數(shù)據(jù)庫65 —起使用意圖模型66-k中所包括的詞典數(shù) 據(jù)庫92-k和語法數(shù)據(jù)庫93-k。以下,將描述詞典數(shù)據(jù)庫92-k和語法數(shù)據(jù)庫93-k。在詞典數(shù)據(jù)庫92-k中記錄有在與意圖信息存儲部分91-k中存儲的意圖信息對應(yīng) 的例句的基礎(chǔ)上產(chǎn)生并描述關(guān)于每個單詞的發(fā)音信息的詞典。在語法數(shù)據(jù)庫93-k中記錄 有在與意圖信息存儲部分91-k中存儲的意圖信息對應(yīng)的例句的基礎(chǔ)上產(chǎn)生并描述關(guān)于每 個單詞的發(fā)音信息的語法規(guī)則。在這個方面,具體地講,參照圖5至圖9,將描述應(yīng)用于意圖模型66-1 (k= 1)的 意圖信息的例子、以及在與意圖信息對應(yīng)的例句的基礎(chǔ)上產(chǎn)生的詞典和語法規(guī)則的各個例 子。接下來,參照圖10和圖11,將描述應(yīng)用于意圖模型66-2(k = 2)的意圖信息的例子、以 及在與意圖信息對應(yīng)的例句的基礎(chǔ)上產(chǎn)生的詞典的例子。圖5是示出應(yīng)用于意圖模型66-1的意圖信息的例子和與該例子對應(yīng)的例句的示 圖。例如,如圖5 中所示,指示說話 “ASHITA-N0-TENKI-W0-0SHIETE-KUDASAI (讓我知 道明天的天氣)”的意圖的意圖信息存儲在意圖模型66-1的意圖信息存儲部分91-1中。在 這種情況下,在圖5中示出的四個例句的基礎(chǔ)上產(chǎn)生詞典數(shù)據(jù)庫92-1中記錄的詞典和語法 數(shù)據(jù)庫93-1中記錄的語法規(guī)則。也就是說,在與意圖信息對應(yīng)的例句(也就是說,“ASHITA NO TENKI WO OSHIETEKUDASAI(讓我知道明天的天氣)”、“ASHITA NO TENKI WA(明天天 氣怎么樣? ) "ASHITA NO TENKI WO OSHIETEKURERU(告訴我明天的天氣 )” 和 “Ε-Τ0 ASHITA NO TENKIGA KIKITAI (嗯,我想知道明天的天氣)”)的基礎(chǔ)上,產(chǎn)生詞典和語法規(guī) 則。另外,每個例句具有通過空格彼此分開的單詞。在圖5中的每個例句的基礎(chǔ)上產(chǎn)生如圖6中所示的詞典,并把該詞典記錄在詞典 數(shù)據(jù)庫92-1中。圖6是示出詞典數(shù)據(jù)庫92-1中記錄的詞典的例子的示圖。如圖6中所示的詞典包括“單詞”和“發(fā)音”的條目。在“單詞”條目中,在其各行中描述如圖5中所示的四個例句中所包括的所有單 詞。在“發(fā)音”條目中,記錄了與同一行的“單詞”條目中描述的單詞對應(yīng)的發(fā)音信息。在“發(fā)音”條目中描述的發(fā)音信息對應(yīng)于使詞典數(shù)據(jù)庫92-1中記錄的每個單詞與 聲學(xué)模型數(shù)據(jù)庫65相關(guān)的信息。例如,在采用HMM作為以音節(jié)為單位的聲學(xué)模型的情況 下,通過在相應(yīng)的發(fā)音信息的基礎(chǔ)上使聲學(xué)模型數(shù)據(jù)庫65與每個單詞相關(guān),獲得與每個單 詞對應(yīng)的聲學(xué)標準模式。除了詞典數(shù)據(jù)庫92-1之外,這可以等同地應(yīng)用于能夠記錄在所有 的詞典數(shù)據(jù)庫92-2至92-N中的詞典。以下,為了區(qū)分單詞和發(fā)音信息,在“AAA”指示單詞的情況下,描述為單詞“AAA”, 并且在“AAA”指示發(fā)音信息的情況下,描述為發(fā)音信息“aaa”。具體地講,例如,在第一行,在“單詞”條目中描述單詞“Ε-Τ0 (嗯)”,并且在“發(fā)音” 條目中描述與單詞“Ε-Τ0”對應(yīng)的發(fā)音信息“e-to”。例如,在第六行,在“單詞”條目中描述 單詞“ASHITA (明天)”,并且在“發(fā)音”條目中描述與單詞“ASHITA (明天)”對應(yīng)的發(fā)音信 息“ashita”。具體地講,在其它行的情況下,在“單詞”條目中描述預(yù)定的單詞,并且在“發(fā) 音”條目中描述與所述預(yù)定的單詞對應(yīng)的發(fā)音信息。
另外,例如,產(chǎn)生圖5中各例句所包括的各個單詞(圖6中的詞典所包括的各個單 詞)的發(fā)生概率或連接概率的模型(N元組語法)作為語法規(guī)則,并隨后把它記錄在語法數(shù) 據(jù)庫93-1中。三個單詞的連接概率稱為三元組概率,兩個單詞的連接概率稱為二元組概率,每 個單詞的發(fā)生概率稱為一元組概率。另外,指示三元組概率的模型的表格稱為三元組表格, 指示二元組概率的模型的表格稱為二元組表格,指示一元組概率的模型的表格稱為一元組 表格。具體地講,例如,作為語法規(guī)則,如圖7至9中所示的三元組表格、二元組表格和一 元組表格記錄在語法數(shù)據(jù)庫93-1中。圖7是示出語法數(shù)據(jù)庫93-1中記錄的三元組表格的例子的示圖。如圖7中所示的三元組表格包括“連接單詞”和“三元組概率”的條目。在“連接單詞”條目中按連接次序在各行中描述如圖5中所示的四個例句中所包 括的所有詞之中預(yù)定的三個連接詞。在“三元組概率”條目中描述在同一行的“連接單詞” 條目中描述的三個單詞按該次序排列的概率,即三元組概率。具體地講,例如,在第一行,在“連接單詞”條目中描述了詞“Ε-Τ0(嗯)”、單詞 "ASHITA(明天),,和單詞“NO,,。在“三元組概率”條目中,描述了“0.003”。因此,根據(jù)第一 行的描述,能夠看出,單詞“Ε-Τ0”、單詞“ASHITA”和單詞“NO”按該次序連接的三元組概率 (即,這三個單詞連接以形成片段(segment) “E-TO ASHITA NO”的概率)變?yōu)椤?.003”。例如,在第二行,在“連接單詞”條目中描述了單詞“NO”、單詞“ TENKI (天氣)”和 單詞“W0”。在“三元組概率”條目中,描述了“0.01”。因此,根據(jù)第二行的描述,能夠看出, 單詞“No”、單詞“TENKI,,和單詞“W”按該次序連接的三元組概率(即,這三個單詞連接以 形成片段“NO TENKI W0”的概率)變?yōu)椤?.01”。類似地,在其它行的情況下,在“連接單詞”條目中描述預(yù)定的三個單詞,在“三元 組概率”條目中描述所述預(yù)定的三個單詞連接的三元組概率。通過參照稍后描述的圖8中的二元組表格把最初兩個單詞的二元組補償系數(shù)與 三個單詞之中最后兩個單詞的二元組概率相乘,能夠計算圖7中未示出的三個單詞的三元 組概率。圖8是示出記錄在語法數(shù)據(jù)庫93-1中的二元組表格的例子的示圖。如圖8中所示的二元組表格包括“連接單詞”、“二元組概率”和“二元組補償系數(shù)” 的條目。在如圖5中所示的四個例句中所包括的所有詞之中,在“連接單詞”條目中按連接 次序在各行中描述預(yù)定的兩個連接詞。在“二元組概率”條目中描述在同一行的“連接單 詞”條目中描述的兩個單詞按該次序排列的概率,即二元組概率。在“二元組補償系數(shù)”條 目中描述在同一行的“連接單詞”條目中描述的兩個單詞的二元組補償系數(shù)。二元組補償 系數(shù)指的是用于在二元組概率的基礎(chǔ)上計算三元組概率的情況的系數(shù),以防止概率的總和 超過1。具體地講,例如,在第一行,在“連接單詞”條目中描述了單詞“Ε-Τ0(嗯)”、單詞 “ASHITA(明天)”。在“二元組概率”條目中,描述了“0.02”。在“二元組補償系數(shù)”條目中 描述了“0. 01”。因此,根據(jù)第一行的描述,能夠看出,單詞“Ε-Τ0(嗯)”和單詞“ASHITA(明天)”按該次序連接的二元組概率(即,這兩個單詞連接以形成片段“Ε-Τ0 ASHITA(嗯明 天)”的概率)變?yōu)椤?. 02”。例如,在第二行,在“連接單詞”條目中描述了單詞“NO”和單詞“TENKI (天氣)”。 在“二元組概率”條目中,描述了 “0. 1”。在“二元組補償系數(shù)”條目中描述了 “0.02”。因 此,根據(jù)第二行的描述,能夠看出,單詞“NO”和單詞“TENKI,,按該次序連接的二元組概率 (即,這兩個單詞連接以形成片段“NO TENKI”的概率)變?yōu)椤?. 1”。通過參照稍后描述的圖9中的一元組表格把兩個單詞之中前面的單詞的一元組 補償系數(shù)與這兩個單詞之中后面的單詞的一元組概率相乘,能夠計算圖8中未示出的兩個 單詞的二元組概率。圖9是示出記錄在語法數(shù)據(jù)庫93-1中的一元組表格的例子的示圖。如圖9中所示的一元組表格包括“單詞”、“一元組概率”和“一元組補償系數(shù)”的 條目。在“單詞”條目中分別描述如圖5中所示的四個例句中所包括的所有單詞。在“一 元組概率”條目中描述在同一行的“單詞”條目中描述的單詞排列在片段中的概率,即一元 組概率。在“一元組補償系數(shù)”條目中描述在同一行的“單詞”條目中所寫的單詞的一元組 補償系數(shù)。一元組補償系數(shù)指的是用于在一元組概率的基礎(chǔ)上計算二元組概率的情況的系 數(shù),以防止概率的總和超過1。具體地講,例如,在第一行,在“單詞”條目中描述了單詞“Ε-Τ0 (嗯)”。在“一元 組概率”條目中,描述了 “0.04”。在“一元組補償系數(shù)”條目中描述了 “0.02”。因此,根據(jù) 第一行的描述,能夠看出,單詞“Ε-Τ0”排列在片段中的一元組概率變?yōu)椤?. 04”。作為針對具有低出現(xiàn)概率的單詞的處理,可以采用例如通過平滑化(smoothing) 來校正每個概率值的技術(shù),具體地講,例如線性內(nèi)插技術(shù)、稱為補償平滑的技術(shù)。另外,對于一元組概率、二元組概率和三元組概率的計算技術(shù)和平滑技術(shù),例如, 它們的細節(jié)公開于 Morikita Publishing Co.,Ltd 的 Kenji Kita,Tetsu Nakamura 所寫的 "Approach on the basis of voicelanguage process—corpus,,。如以上參照圖5至9所描述的,在這個特定例子中,對于意圖模型66-1,圖5中的 意圖存儲在意圖信息存儲部分91-1中。另外,在圖5中的各個例句的基礎(chǔ)上產(chǎn)生詞典和語 法規(guī)則。詞典記錄在詞典數(shù)據(jù)庫92-1中,并且語法規(guī)則記錄在語法數(shù)據(jù)庫93-1中。圖10是示出應(yīng)用于意圖模型66-2的意圖信息的例子和與該意圖信息對應(yīng)的例句 的示圖。例如,假設(shè)如圖10中所示的指示說話“IMA-N0-JIKAN-W0-0SHIETE-KUDASAI (請告 訴我?guī)c了?) ”的意圖的意圖信息存儲在意圖模型66-2的意圖信息存儲部分91-2中。在 這種情況下,在圖10中示出的五個例句的基礎(chǔ)上產(chǎn)生詞典數(shù)據(jù)庫92-2中記錄的詞典和語 法數(shù)據(jù)庫93-2中記錄的語法規(guī)則。也就是說,在與意圖信息對應(yīng)的例句“IMA NANJI DESU KA (告訴我?guī)c了?)”、“IMANANJI (幾點了?)”、“IMA NANJI ΚΑΝΑ (你知道現(xiàn)在幾點了 嗎? )”、“IMA NO JIKAN GA ΚΙΚΙΤΑΙ (我想知道幾點了)” 和 “ JIKAN WO 0SHIETE(告訴我 幾點了)”的基礎(chǔ)上,產(chǎn)生詞典和語法規(guī)則。另外,每個例句具有通過空格彼此分開的單詞。具體地講,例如,在如圖10中所示的各個例句的基礎(chǔ)上產(chǎn)生如圖11中所示的詞 典,并把該詞典記錄在詞典數(shù)據(jù)庫92-2中。
圖11是示出詞典數(shù)據(jù)庫92-2中記錄的詞典的例子的示圖。以類似于圖6中詞典的方式,如圖11中所示的詞典包括“單詞”和“發(fā)音”的條目。在“單詞”條目中,在各行中描述如圖10中所示的五個例句中所包括的所有單詞。 在“發(fā)音”條目中,描述與同一行的“單詞”條目中描述的單詞對應(yīng)的發(fā)音信息。具體地講,例如,在第一行,在“單詞”條目中描述單詞“IMA”,并且在“發(fā)音”條目中描述與單詞“IMA”對應(yīng)的發(fā)音信息“ima”。例如,在第二行,在“單詞”條目中描述單詞 “DESU”,并且在“發(fā)音”條目中描述與單詞“DESU”對應(yīng)的發(fā)音信息“desu”。類似地,在其它 行的情況下,在“單詞”條目中描述預(yù)定的單詞,并且在“發(fā)音”條目中描述與所述預(yù)定的單 詞對應(yīng)的發(fā)音信息。另外,例如,產(chǎn)生圖10中的各例句中所包括的各個單詞(圖11中的詞典中所包括 的各個單詞)的發(fā)生概率或連接概率的模型(N元組語法)作為語法規(guī)則,并隨后把產(chǎn)生的 語法規(guī)則記錄在語法數(shù)據(jù)庫93-2中。具體地講,例如,雖然未示出,但在語法數(shù)據(jù)庫93-2 中記錄與圖7至9中示出的三元組表格、二元組表格和一元組表格具有相同結(jié)構(gòu)的三元組 表格、二元組表格和一元組表格作為語法規(guī)則。以這種方法,在這個特定例子中,與如圖5中所示的意圖信息“ASHITA-NO-TENKI-W0-0SHIETE-KUDASAI (讓我知道明天的天氣)”相對應(yīng)地提供了圖6中的詞典和圖7至9中 的語法規(guī)則(三元組表格等)。另外,圖6中的詞典記錄在詞典數(shù)據(jù)庫92-1中,圖7至9中 的語法規(guī)則(三元組表格等)記錄在語法數(shù)據(jù)庫93-1中。對于詞典數(shù)據(jù)庫92-1和語法數(shù) 據(jù)庫93-1,通過組合存儲圖5中的意圖信息的意圖信息存儲部分91-1和存儲預(yù)得分的預(yù)得 分存儲部分94-1而獲得的模型對應(yīng)于意圖模型66-1。類似地,在這個特定例子中,對于如圖10中所示的意圖信息“IMA-N0-JIKAN-W0-0 SHIETE-KUDASAI (請告訴我?guī)c了?)”,提供了圖11中的詞典和未示出的語法規(guī)則(三元 組表格等)。另外,圖11中的詞典記錄在詞典數(shù)據(jù)庫92-2中,未示出的語法規(guī)則(三元組 表格等)記錄在語法數(shù)據(jù)庫93-2中。對于詞典數(shù)據(jù)庫92-2和語法數(shù)據(jù)庫93-2,通過組合 存儲圖10中的意圖信息的意圖信息存儲部分91-2和存儲預(yù)得分的預(yù)得分存儲部分94-2 而獲得的模型是意圖模型66-2。類似地,在其它情況下,例如,與各種意圖信息(諸如,“K0NNICHIWA(下午好)”、 “RAJI0-W0-TUKETE (打開收音機)”或“M0-SUK0SHI-MAE-NI-KITE (再走近點兒)”)——對 應(yīng)地提供各個意圖模型66-3至66-N。因此,當在如圖4中所示的步驟S31的處理中確定意圖模型66-1作為處理目標的 情況下,在步驟S32的處理中執(zhí)行下面的處理。也就是說,通過聲學(xué)模型數(shù)據(jù)庫65、記錄如 圖6中所示的詞典的詞典數(shù)據(jù)庫92-1和記錄如圖7至9中所示的語法規(guī)則的語法數(shù)據(jù)庫 93-1,確定與意圖信息“ASHITA-N0-TENKI-W0-0SHIETE-KUDASAI (讓我知道明天的天氣)” 對應(yīng)的單詞序列。具體地講,例如,在用戶的說話是“ASHITA-N0-TENKI-W0-0SHIETE (告訴 我明天的天氣)”的情況下,針對意圖模型66-1確定單詞序列“ASHITA NO TENKI 0SHIETE”。另一方面,當在步驟S31的處理中確定意圖模型66-2作為處理目標的情況下,在 步驟S32的處理中執(zhí)行下面的處理。也就是說,通過聲學(xué)模型數(shù)據(jù)庫65、記錄如圖11中所 示的詞典的詞典數(shù)據(jù)庫92-2和記錄未示出的語法規(guī)則的語法數(shù)據(jù)庫93-2,確定與意圖信 息“ IMA-N0-JIKAN-W0-0SHIETE-KUDASAI (請告訴我?guī)c了?)”對應(yīng)的單詞序列。具體地講,例如,在用戶的說話是“IMA-N0-JIKAN-W0-0SHIETE(告訴我?guī)c了?)”的情況下,針對 意圖模型66-2確定單詞序列“OSHIETE NO NANJI 0SHIETE”。以這種方法,如果在如圖4所示的步驟S32的處理中確定了針對處理目標的意圖 模型66-k的單詞序列,則這一進程前進至步驟S33。在步驟S33中,聲學(xué)得分計算部分81在特征量序列的出現(xiàn)概率的基礎(chǔ)上對于針對 處理目標的意圖模型66-k確定的單詞序列中所包括的每個單詞計算聲學(xué)得分。在步驟S34中,語言得分計算部分82在連接概率的基礎(chǔ)上對于針對處理目標的意 圖模型66-k確定的單詞序列中所包括的各個單詞計算語言得分。在步驟S33和S34的處理中,對于聲學(xué)得分和語言得分中的每個得分給予權(quán)重系 數(shù),或者給予當特定詞被插入在針對處理目標的意圖模型66-k確定的單詞序列中時的懲 罰得分。權(quán)重系數(shù)和懲罰得分將在稍后進行描述。另外,在步驟S33和S34的處理中,聲學(xué)得分和語言得分的計算方法不受到特別 的限制,例如,如上所述,可以采用與現(xiàn)有技術(shù)的語音識別處理中廣泛使用的技術(shù)相同的技 術(shù)。在步驟S35中,預(yù)得分計算部分83在預(yù)得分存儲部分94_k中存儲的預(yù)得分的基 礎(chǔ)上針對處理目標的意圖模型66-k計算預(yù)得分。在步驟S36中,多匹配部分64確定是否已計算所有意圖模型66_1至66_N的得分。在意圖模型66-1至66-N之中,在存在尚未確定為處理目標的任何模型的情況下, 在步驟S36中確定為“否”,然后這一進程返回至步驟S31以重復(fù)相同的處理。也就是說,在 步驟S31中,確定還未被確定為處理目標的意圖模型66-k作為新的處理目標。然后,在步 驟S32至S35的處理中,確定新的處理目標的單詞序列,計算該單詞序列的聲學(xué)得分和語言 得分,并且還計算該新的處理目標的預(yù)得分。其后,確定所有意圖模型66-1至66-N中的每個意圖模型作為處理目標,并重復(fù)執(zhí) 行步驟S31至S36的循環(huán)處理。因此,為意圖模型66-1至66-N中的每個意圖模型確定與 相應(yīng)意圖信息對應(yīng)的單詞序列,計算該單詞序列的聲學(xué)得分和語言得分,并計算預(yù)得分。因 此,在步驟S36中確定為“是”,完成多匹配處理。當這種多匹配處理完成時,將描述從多匹配部分64輸出的信息。圖12和圖13是示出從多匹配部分64輸出的信息的一部分的例子的示圖。圖12是示出從多匹配部分64輸出的信息之中針對意圖模型66-1的多匹配處理 的執(zhí)行結(jié)果的示圖。在這個特定例子中,在用戶的說話是“ASHITA-N0-TENKI-W0-0SHIETE(告訴我明 天的天氣),,的情況下,把作為多匹配處理的圖4中的步驟S31的處理中的意圖模型66-1 確定為處理目標,并且在步驟S32的處理中針對意圖模型66-1確定單詞序列“ASHITAN0 TENKI 0SHIETE”。在這種情況下,如圖12中所示,針對形成該單詞序列的各個單詞“ASHITA”、“N0”、 “TENKI”和“OSHIETE”分別計算步驟S33的處理中的聲學(xué)得分Pai至PA4。另外,在步驟S34 的處理中分別計算語言得分Qai至QA4。另外,在步驟S35的處理中,針對意圖模型66-1的 意圖信息計算預(yù)得分Ra。以這種方法,在針對一個意圖模型66-1執(zhí)行多匹配處理的情況下,作為針對意圖模型66-1的多匹配處理的執(zhí)行結(jié)果,從多匹配處理64輸出下面的信息。也就是說,如圖12 中所示的單詞序列的各個單詞的三個得分(聲學(xué)得分、語言得分和預(yù)得分)對應(yīng)于如圖5 中所示的意圖信息作為執(zhí)行結(jié)果信息,并從多匹配部分64輸出。圖13是示出從多匹配部分64輸出的信息之中針對意圖模型66-2的多匹配處理 的執(zhí)行結(jié)果的示圖。在這個特定例子中,在用戶的說話是“IMA-N0-JIKAN-W0-0SHIETE(告訴我?guī)c 了?)”的情況下,把多匹配處理的步驟S31的處理中的意圖模型66-2確定為處理目標,并 且在步驟S32的處理中針對意圖模型66-2確定單詞序列“OSHIETE NO NANJI0SHIETE”。在這種情況下,如圖13中所示,針對形成該單詞序列的各個單詞“0SHIETE”、 "NONANJI,,和“0SHIETE”分別計算步驟S33的處理中的聲學(xué)得分Pbi至PB4,在步驟S34 的處理中分別計算語言得分Qbi至Qb4。另外,在步驟S35的處理中,針對意圖模型66-2的 意圖信息計算預(yù)得分Rb。以這種方法,在針對一個意圖模型66-2執(zhí)行多匹配處理的情況下,作為針對意圖 模型66-2的多匹配處理的執(zhí)行結(jié)果,從多匹配處理64輸出下面的信息。也就是說,如圖13 中所示的單詞序列的各個單詞的三個得分(聲學(xué)得分、語言得分和預(yù)得分)對應(yīng)于如圖10 中所示的意圖信息,并從多匹配部分64輸出。雖然未示出,但作為其它意圖模型66-3至66-N中的每個意圖模型的多匹配處理 的執(zhí)行結(jié)果,從多匹配部分64輸出相同的信息。也就是說,根據(jù)相應(yīng)的意圖信息確定的單 詞序列的各個單詞的三個得分(聲學(xué)得分、語言得分和預(yù)得分)作為執(zhí)行結(jié)果信息對應(yīng)于 所述相應(yīng)的意圖信息,并分別從多匹配部分64輸出。返回至圖3的流程圖的描述,在步驟S4以上的多匹配處理之后,在步驟S5中,作 為意圖選擇設(shè)備的意圖確定部分67為多個意圖模型66-1至66-N中的每個意圖模型計算 總得分。例如,如下計算意圖模型66-1的總得分。如圖12中所示,根據(jù)意圖模型66-1的意圖信息確定的單詞序列的各個單詞的三 個得分(聲學(xué)得分、語言得分和預(yù)得分)是聲學(xué)得分Pai至PA4、語言得分Qai至Qa4和預(yù)得分RA。在這種情況下,意圖確定部分67能夠根據(jù)下面的公式1計算意圖模型66-1的總 得分Tl Tl = (PaiPa2Pa3Pa4) · (QaiQa2Qa3Qa4) .Ra · · ·⑴。另外,例如,能夠如下計算意圖模型66-2的總得分。根據(jù)意圖模型66-2的意圖信息確定的單詞序列的各個單詞的三個得分(聲學(xué)得 分、語言得分和預(yù)得分)是聲學(xué)得分Pbi至PB4、語言得分Qbi至Qb4和預(yù)得分Rb,如圖13中所
示在這種情況下,意圖確定部分67能夠根據(jù)下面的公式2計算意圖模型66-2的總 得分T2 T2 = (PbiPb2Pb3Pb4) · (QbiQb2Qb3Qb4) .Rb · · ·⑵。在步驟S6中,意圖確定部分67選擇與意圖模型66-1至66-N之中具有最大的總 得分Tt的意圖模型66-t對應(yīng)的意圖信息。另外,此時,意圖確定部分67可以選擇與意圖模型66-1至66-N之中大于閾值并且預(yù)設(shè)了總得分的多個上層意圖模型66對應(yīng)的多條意 圖信息。在步驟S7中,意圖可靠性計算部分68計算由意圖確定部分67選擇的意圖信息的 可靠性。在步驟S6中,在由意圖確定部分67選擇了多條意圖信息的情況下,意圖可靠性計 算部分68計算所選擇的多條意圖信息的可靠性。以這種方法,由于計算了所選擇的意圖信息的可靠性,所以能夠舍棄具有低可靠 性的意圖信息,并且能夠僅采用具有高可靠性的意圖信息。因此,能夠可靠地估計正確意 圖。例如,在語音理解設(shè)備41中僅提供兩個意圖模型,即意圖模型66-1和意圖模型 66-2 (N = 2)。在這種情況下,如上所述,多匹配部分64的輸出信息包括圖12中的一組信 息和圖5中的意圖信息、以及圖13中的一組信息和圖10中的意圖信息。在這種情況下,意圖可靠性計算部分68根據(jù)下面的公式3計算意圖模型66-1的 可靠性Rl。
權(quán)利要求
一種語音處理設(shè)備,包括得分計算裝置,計算指示在用戶說話的基礎(chǔ)上輸入的語音信號與指示多個意圖中的每個意圖的多條意圖信息中的每條意圖信息的符合度的得分;意圖選擇裝置,在由得分計算裝置計算的得分的基礎(chǔ)上選擇所述多條意圖信息之中指示用戶說話的意圖的意圖信息;以及意圖可靠性計算裝置,在由得分計算裝置計算的得分的基礎(chǔ)上計算由意圖選擇裝置選擇的意圖信息的可靠性。
2.如權(quán)利要求1所述的語音處理設(shè)備,其中,所述得分計算裝置包括聲學(xué)得分計算裝置,針對所述多條意圖信息中的每條意圖信息計算聲學(xué)得分作為指示 語音信號與意圖信息的聲學(xué)符合度的得分;語言得分計算裝置,針對所述多條意圖信息中的每條意圖信息計算語言得分作為指示 語音信號與意圖信息的語言符合度的得分;預(yù)得分計算裝置,針對所述多條意圖信息中的每條意圖信息計算預(yù)得分作為在每個發(fā) 生概率的基礎(chǔ)上預(yù)先確定的得分。
3.如權(quán)利要求2所述的語音處理設(shè)備,其中,所述預(yù)得分計算裝置響應(yīng)于輸入語音信 號時的上下文來調(diào)整所述多條意圖信息中的每條意圖信息的預(yù)得分。
4.如權(quán)利要求3所述的語音處理設(shè)備,其中,所述得分計算裝置計算語音信號中的語 音區(qū)的得分。
5.如權(quán)利要求3所述的語音處理設(shè)備,其中,所述得分計算裝置還計算所述多條意圖 信息之中的不指示特定意圖的意圖信息的得分,并且其中,意圖選擇裝置在選擇了不指示所述特定意圖的意圖信息的情況下確定與語音信 號對應(yīng)的用戶說話是不指示特定意圖的無意義說話。
6.如權(quán)利要求3所述的語音處理設(shè)備,其中,所述得分計算裝置對聲學(xué)得分、語言得分 和預(yù)得分中的每個得分給予權(quán)重,并且其中,意圖可靠性計算裝置調(diào)整每個權(quán)重并在均被給予了調(diào)整后的權(quán)重的得分的基礎(chǔ) 上計算可靠性。
7.如權(quán)利要求3所述的語音處理設(shè)備,還包括管理裝置,基于由意圖選擇裝置選擇的 意圖信息管理輸出。
8.一種語音處理方法,包括下述步驟計算指示在用戶說話的基礎(chǔ)上輸入的語音信號與指示多個意圖中的每個意圖的多條 意圖信息中的每條意圖信息的符合度的得分;在通過得分計算步驟的處理計算的得分的基礎(chǔ)上選擇所述多條意圖信息之中指示用 戶說話的意圖的意圖信息;以及在通過得分計算步驟的處理計算的得分的基礎(chǔ)上計算通過意圖選擇步驟的處理選擇 的意圖信息的可靠性。
9.一種使計算機能夠執(zhí)行控制處理的程序,該控制處理包括下述步驟計算指示在用戶說話的基礎(chǔ)上輸入的語音信號與指示多個意圖中的每個意圖的多條 意圖信息中的每條意圖信息的符合度的得分;在計算的得分的基礎(chǔ)上選擇所述多條意圖信息之中指示用戶說話的意圖的意圖信息;以及在計算的得分的基礎(chǔ)上計算通過意圖選擇步驟的處理選擇的意圖信息的可靠性。
10. 一種語音處理設(shè)備,包括得分計算單元,被配置為計算指示在用戶說話的基礎(chǔ)上輸入的語音信號與指示多個意 圖中的每個意圖的多條意圖信息中的每條意圖信息的符合度的得分;意圖選擇單元,被配置為在由得分計算單元計算的得分的基礎(chǔ)上選擇所述多條意圖信 息之中指示用戶說話的意圖的意圖信息;以及意圖可靠性計算單元,被配置為在由得分計算單元計算的得分的基礎(chǔ)上計算由意圖選 擇單元選擇的意圖信息的可靠性。
全文摘要
本發(fā)明涉及一種語音處理設(shè)備和語音處理方法及程序。該語音處理設(shè)備包括得分計算單元,計算指示在用戶說話的基礎(chǔ)上輸入的語音信號與指示多個意圖中的每個意圖的多條意圖信息中的每條意圖信息的符合度的得分;意圖選擇單元,在由得分計算單元計算的得分的基礎(chǔ)上選擇所述多條意圖信息之中指示用戶說話的意圖的意圖信息;意圖可靠性計算單元,在由得分計算單元計算的得分的基礎(chǔ)上計算由意圖選擇單元選擇的意圖信息的可靠性。
文檔編號G10L15/18GK101989424SQ20101023740
公開日2011年3月23日 申請日期2010年7月22日 優(yōu)先權(quán)日2009年7月30日
發(fā)明者前田幸德, 南野活樹, 小川浩明, 本田等 申請人:索尼公司