專利名稱:信息處理設(shè)備、信息處理方法及程序的制作方法
技術(shù)領(lǐng)域:
本公開涉及信息處理設(shè)備、信息處理方法及程序。具體地,本公開涉及執(zhí)行用于估計(jì)話語(utterance)的意圖的語音識別處理和語音理解處理的信息處理設(shè)備,以及涉及信息處理方法和程序。
背景技術(shù):
近年來,應(yīng)用了語音識別的各種產(chǎn)品和服務(wù)已經(jīng)被廣泛使用。語音識別是分析通過諸如麥克風(fēng)的語音輸入部分輸入的語音信號以及自動確定對應(yīng)于輸入的語音信號的字群組的技術(shù)。通過組合語音識別技術(shù)和各種應(yīng)用,實(shí)現(xiàn)了基于語音識別的結(jié)果來執(zhí)行數(shù)據(jù)處理的各種產(chǎn)品和服務(wù)。將參考圖1描述語音識別處理的基本配置。麥克風(fēng)12捕獲用戶輸入的語音11,以及AD轉(zhuǎn)換器13對語音的模擬信號進(jìn)行采樣,從而生成數(shù)字?jǐn)?shù)據(jù)。數(shù)字?jǐn)?shù)據(jù)輸入到特征提取部14,以及通過以適當(dāng)?shù)臅r間間隔執(zhí)行的頻率分析等,將數(shù)據(jù)轉(zhuǎn)換成表示語音的頻譜或其它聲學(xué)特征的參數(shù)。通過特征提取部14的處理,獲得語音的特征量的時間序列。將特征量群組發(fā)送到匹配部15。匹配部15將聲學(xué)模型數(shù)據(jù)16、詞典數(shù)據(jù)17、和語法數(shù)據(jù)18中的各個信息與輸入?yún)?shù)進(jìn)行匹配,以及輸出語音識別結(jié)果19。而且,在特征提取部14中,除了提取特征量群組以外,還確定語音區(qū)段。語音區(qū)段對應(yīng)于從話語的開始時間到結(jié)束時間的區(qū)段。作為檢測語音區(qū)段的方法,例如使用基于語音信號的功率等僅提取話語的區(qū)段的方法。匹配部15執(zhí)行關(guān)于與語音區(qū)段對應(yīng)的特征量群組的匹配處理,從而輸出針對用戶的每個話語的語音識別結(jié)果19。聲學(xué)模型數(shù)據(jù)16是保存諸如在要處理的語言中使用的單個音素和音節(jié)的聲學(xué)特征的模型,其中要處理的語言包括例如日語或英語。使用隱馬爾可夫模型(HMM)等作為該模型。詞典數(shù)據(jù)17是保存關(guān)于要識別的單個字的發(fā)音的信息的數(shù)據(jù)。通過該數(shù)據(jù),將字與上述聲學(xué)模型相關(guān)聯(lián),因此獲得與詞典中包括的各個字對應(yīng)的標(biāo)準(zhǔn)聲學(xué)特征。語法數(shù)據(jù)18是描述可將詞典中描述的單個字彼此連接的方式的數(shù)據(jù)。對于語法數(shù)據(jù),使用基于形式語法或上下文無關(guān)語法的描述、包括字連接的統(tǒng)計(jì)概率的語法(元語法,N-gram)等。在匹配部15中,通過使用聲學(xué)模型數(shù)據(jù)16、詞典數(shù)據(jù)17、和語法數(shù)據(jù)18,確定對于輸入特征量群組最適合的字群組。例如,當(dāng)將隱馬爾可夫模型(HMM)用作聲學(xué)模型數(shù)據(jù)16 時,將通過累積根據(jù)特征量群組的每個特征量的出現(xiàn)概率而獲得的值用作聲學(xué)評估值(在下文中,被稱為聲學(xué)得分)。通過使用上述標(biāo)準(zhǔn)特征為每個字確定該聲學(xué)得分。例如,當(dāng)將二元語法(bigram)用作語法數(shù)據(jù)18時,基于字被連接到前一字的概率來將每個字的語言概率轉(zhuǎn)換成數(shù)值,以及將該值提供為語言評估值(在下文中,被稱為語言得分)。此后,綜合地評估聲學(xué)得分和語言得分,由此確定對于輸入語言信號最合適的字群組。例如,當(dāng)用戶說“The weather is nice today (今天天氣好)”時,獲得包括“The”、 “Weather”、“iS”、“niCe”、“t0day”的字群組,作為識別結(jié)果。此時,將聲學(xué)得分和語言得分提供給每個字。而且,在本公開中,如上所述的詞典數(shù)據(jù)17和語法數(shù)據(jù)18的組合被稱為語
言模型。當(dāng)將語音識別技術(shù)應(yīng)用于產(chǎn)品和服務(wù)時,廣泛使用下面兩種方法(a)直接將識別的字群組與對應(yīng)的行為相關(guān)聯(lián)的方法。(b)從識別的字群組中提取話語中包括的用戶的意圖,以及將意圖與對應(yīng)的行為相關(guān)聯(lián)。例如,當(dāng)向機(jī)器人給出話語“stand up (起立)”時,使機(jī)器人響應(yīng)識別的字群組 "stand up (起立)”而起立的方法是前者(a)方法,即直接將字與對應(yīng)的行為相關(guān)聯(lián)的方法。另一方面,估計(jì)諸如“stand up (起立)”、“wake up (醒來)”、和“getup (起床)” 的每個話語中包括的意圖(例如,“stand up please (請起立)”的意圖)、以及使機(jī)器人響應(yīng)該意圖而行動的方法是后者(b)方法。即,這是提取話語中包括的用戶的意圖、以及將對應(yīng)的行為與該意圖相關(guān)聯(lián)的方法。一般,由于存在包括相同意圖的多種類型的話語,與直接將對應(yīng)的行為分配給識別的字群組的前者(a)方法相比,估計(jì)話語的意圖以及將對應(yīng)的行為分配給該意圖的后者 (b)方法可更容易分配行為。以該方式,根據(jù)輸入語音信號估計(jì)話語的意圖的設(shè)備被稱為語
音理解設(shè)備。作為描述估計(jì)話語中包括的用戶的意圖的方法的相關(guān)領(lǐng)域中的技術(shù),例如存在日本未審查專利申請公布第 2006-53203 號,“SPEECH PROCESSING DEVICE AND METHOD, RECORDING MEDIUM AND PROGRAM”。在日本未審查專利申請公布第2006-53203號中描述的方法中,描述了基于輸入語音信號估計(jì)意圖的技術(shù)(盡管在日本未審查專利申請公布第2006-53203號中意圖被稱為“意愿(will)”,但只要不導(dǎo)致混淆,“意愿(will) ”在下面的描述中將被稱為具有相同含義的“意圖(intension)”)。在日本未審查專利申請公布第2006-53203號中,提供了表示字群組與輸入語音信號之間的聲學(xué)相似度的聲學(xué)得分計(jì)算裝置、和表示語言相似度的語言得分計(jì)算裝置,其中,基于語法規(guī)則和詞典來配置該聲學(xué)相似度,該聲學(xué)相似度對應(yīng)于表示意圖的意圖信息,例如作為意圖的“stand up please (請起立)”;以及,基于針對每個意圖信息而計(jì)算的聲學(xué)得分和語言得分,從多種類型的意圖信息中選擇表示與輸入語音信號對應(yīng)的意圖的意圖信息,由此估計(jì)意圖。但是,一般,隨著意圖信息的總量增加,估計(jì)關(guān)于輸入語音的意圖的準(zhǔn)確度降低, 以及計(jì)算量增加。例如,具體地,如果基于語音識別而處理信息的信息處理設(shè)備是包括錄制和回放功能的電視機(jī),則用戶可做出關(guān)于電視機(jī)的多個不同的請求(意圖),例如“Please change the channel (請改變頻道),,、"please turn the volume up (請調(diào)高音量),,、"please record (請錄帝(J),,、“please play (請播放),,、“please play with fast forward (請'決進(jìn)播放)”、以及 “please play slowly (請慢放)”。
以該方式,在可能接收各種類型的請求的設(shè)備中,當(dāng)應(yīng)用上述表示字群組與語音信號之間的相似度的聲學(xué)得分計(jì)算裝置、以及表示語言相似度的語言得分計(jì)算裝置、來執(zhí)行從多種類型的意圖信息中選擇表示與輸入語音信號對應(yīng)的意圖的意圖信息的處理時,處理所需的計(jì)算量增加,因此意圖估計(jì)的準(zhǔn)確度降低。
發(fā)明內(nèi)容
已經(jīng)考慮到以上問題而做出了本公開,以及期望的是提供一種信息處理設(shè)備、以及信息處理方法及程序,其中,可基于語音識別來有效地和非常準(zhǔn)確地執(zhí)行意圖估計(jì)。本公開的第一實(shí)施例是一種信息處理設(shè)備,包括預(yù)得分調(diào)整部分,其針對對應(yīng)于預(yù)先登記的多種類型的意圖信息中的每個意圖信息的、作為單元的意圖模型,基于作為觀測信息而獲得的上下文信息來計(jì)算預(yù)得分;多匹配部分,其確定對于基于用戶話語的輸入語音最合適的字群組,以及針對作為單元的意圖模型計(jì)算要給予字群組的聲學(xué)得分和語言得分;以及意圖確定部分,其通過比較根據(jù)作為單元的意圖模型的預(yù)得分、聲學(xué)得分、和語言得分而計(jì)算的總得分,將與取得最高總得分的意圖模型對應(yīng)的意圖信息確定為與用戶話語對應(yīng)的意圖。在本公開的信息處理設(shè)備的實(shí)施例中,觀測信息可包括多種類型的觀測信息,該設(shè)備還可包括預(yù)得分存儲部分,在該預(yù)得分存儲部分中登記有關(guān)每個上下文信息的對應(yīng)于上下文的預(yù)得分,其中,每個上下文信息對應(yīng)于多種不同類型的觀測信息;以及預(yù)得分調(diào)整部分可基于上下文信息來選擇登記在預(yù)得分存儲部分中的對應(yīng)于上下文的預(yù)得分,以及通過應(yīng)用所選擇的對應(yīng)于上下文的預(yù)得分來計(jì)算作為單元的意圖模型的預(yù)得分。在本公開的信息處理設(shè)備的實(shí)施例中,作為觀測信息的上下文信息可包括信息 (a)至(c)中的至少任一個,信息(a)至(c)包括(a)從輸入及輸出部分輸入的由用戶選擇的處理類別信息;(b)從圖像處理部分輸入的語音輸入個人識別信息;以及(c)從麥克風(fēng)確定部分輸入的語音輸入麥克風(fēng)識別信息,以及預(yù)得分調(diào)整部分可基于上下文信息選擇預(yù)得分存儲部分中登記的對應(yīng)于上下文的預(yù)得分,以及可通過應(yīng)用所選擇的對應(yīng)于上下文的預(yù)得分來計(jì)算作為單元的意圖模型的預(yù)得分。在本公開的信息處理設(shè)備的實(shí)施例中,用戶選擇的處理類別信息可為用戶從執(zhí)行處理的信息處理設(shè)備的顯示部分上顯示的處理類別信息中選擇的信息,以及預(yù)得分調(diào)整部可選擇與用戶選擇的處理類別對應(yīng)的對應(yīng)于上下文的預(yù)得分,以及可通過應(yīng)用所選擇的對應(yīng)于上下文的預(yù)得分來計(jì)算作為單元的意圖模型的預(yù)得分。在本公開的信息處理設(shè)備的實(shí)施例中,語音輸入個人識別信息可為圖像處理部分基于由信息處理設(shè)備的相機(jī)捕獲的圖像而執(zhí)行的臉部識別處理的識別結(jié)果。預(yù)得分調(diào)整部可選擇與識別的語音輸入個人對應(yīng)的對應(yīng)于上下文的預(yù)得分,以及可通過應(yīng)用所選擇的對應(yīng)于上下文的預(yù)得分來計(jì)算作為單元的意圖模型的預(yù)得分。在本公開的信息處理設(shè)備的實(shí)施例中,語音輸入麥克風(fēng)識別信息可為由信息處理設(shè)備的麥克風(fēng)確定部分獲得的、被確定為已經(jīng)從中輸入了語音的麥克風(fēng)的麥克風(fēng)信息。預(yù)得分調(diào)整部可選擇與已經(jīng)從中輸入了語音的麥克風(fēng)對應(yīng)的對應(yīng)于上下文的預(yù)得分,以及可通過應(yīng)用所選擇的對應(yīng)于上下文的預(yù)得分來計(jì)算作為單元的意圖模型的預(yù)得分。
在本公開的信息處理設(shè)備的實(shí)施例中,意圖確定部分可通過應(yīng)用對應(yīng)于聲學(xué)得分、語言得分和預(yù)得分中的每個的預(yù)設(shè)權(quán)重,來計(jì)算作為單元的意圖模型的總得分。在本公開的信息處理設(shè)備的實(shí)施例中,信息處理設(shè)備還可包括預(yù)得分學(xué)習(xí)部分, 其接收預(yù)得分確定部分的確定結(jié)果的輸入,以及通過基于輸入確定結(jié)果而執(zhí)行的學(xué)習(xí)處理,來更新預(yù)得分存儲部分中登記的對應(yīng)于上下文的預(yù)得分。本公開的第二實(shí)施例是一種在信息處理設(shè)備中執(zhí)行的信息處理方法,該方法包括使預(yù)得分調(diào)整部分針對對應(yīng)于預(yù)先登記的多個意圖信息中的每個意圖信息的、作為單元的意圖模型,基于作為觀測信息而獲得的上下文信息來計(jì)算預(yù)得分;使多匹配部分確定對于基于用戶話語的輸入語音最合適的字群組,以及針對作為單元的意圖模型計(jì)算要給予字群組的聲學(xué)得分和語言得分;以及使意圖確定部分通過比較根據(jù)作為單元的意圖模型的預(yù)得分、聲學(xué)得分、和語言得分而計(jì)算的總得分,將與取得最高總得分的意圖模型對應(yīng)的意圖信息確定為與用戶話語對應(yīng)的意圖。本公開的第三實(shí)施例是一種使信息處理設(shè)備執(zhí)行信息處理的程序,該程序包括 使預(yù)得分調(diào)整部分針對對應(yīng)于預(yù)先登記的多種類型的意圖信息中的每個意圖信息的、作為單元的意圖模型,基于作為觀測信息而獲得的上下文信息來計(jì)算預(yù)得分;使多匹配部分確定用于基于用戶話語的輸入語音最合適的字群組,以及針對作為單元的意圖模型計(jì)算要給予字群組的語言得分和聲學(xué)得分;以及使意圖確定部分通過比較根據(jù)作為單元的意圖模型的預(yù)得分、聲學(xué)得分、和語言得分而計(jì)算的總得分,將與取得最高總得分的意圖模型對應(yīng)的意圖信息確定為與用戶話語對應(yīng)的意圖??赏ㄟ^以計(jì)算機(jī)可讀形式提供的記錄介質(zhì)或通信介質(zhì),將本公開的實(shí)施例的程序提供給執(zhí)行各種類型的程序代碼的信息處理設(shè)備和計(jì)算機(jī)系統(tǒng)。通過以計(jì)算機(jī)可讀形式提供程序,響應(yīng)信息處理設(shè)備或計(jì)算機(jī)系統(tǒng)中的程序而實(shí)現(xiàn)處理。通過下面的基于本公開的實(shí)施例和附圖的詳細(xì)描述,將進(jìn)一步使本公開的其它期望的實(shí)施例、特征和優(yōu)點(diǎn)變得清楚。而且,本說明書中的系統(tǒng)是多個裝置的邏輯集合配置, 以及每個配置裝置不限于在同一情況中。根據(jù)本公開的實(shí)施例的配置,實(shí)現(xiàn)了基于用戶的話語來確定用戶的意圖的設(shè)備和方法。該設(shè)備包括預(yù)得分調(diào)整部分,其針對對應(yīng)于預(yù)先登記的多種類型的意圖信息中的每個意圖信息的、作為單元的意圖模型,基于作為觀測信息而獲得的上下文信息來計(jì)算預(yù)得分;多匹配部分,其確定用于基于用戶話語的輸入語音最合適的字群組,以及針對作為單元的意圖模型計(jì)算要給予字群組的聲學(xué)得分和語言得分;以及意圖確定部分,其通過比較根據(jù)作為單元的意圖模型的預(yù)得分、聲學(xué)得分、和語言得分而計(jì)算的總得分,將與取得最高總得分的意圖模型對應(yīng)的意圖信息確定為與用戶話語對應(yīng)的意圖,以及通過比較作為單元的意圖模型的得分來確定與用戶的話語對應(yīng)的用戶的意圖。通過本公開,在根據(jù)輸入語音信號估計(jì)話語的意圖的設(shè)備中,可使用作為上下文的各種類型的觀測信息來調(diào)整預(yù)得分,因此可提高意圖估計(jì)的準(zhǔn)確度。
圖1是圖示語音識別處理的基本配置的視圖。圖2是圖示由根據(jù)本公開的實(shí)施例信息處理設(shè)備執(zhí)行的處理的概述的視圖。
7
圖3是圖示根據(jù)本公開的實(shí)施例的信息處理設(shè)備詳細(xì)配置示例的框圖。圖4是圖示顯示部分上顯示的、由信息處理設(shè)備執(zhí)行的處理的類別(類型)信息的示例的視圖。圖5是圖示與由根據(jù)本公開的實(shí)施例的信息處理設(shè)備執(zhí)行的處理的處理類別對應(yīng)的意圖信息的示例的視圖。圖6是圖示使用根據(jù)本公開的實(shí)施例的信息處理設(shè)備的控制器來選擇處理類別的示例的視圖。圖7是圖示根據(jù)本公開的實(shí)施例的信息處理設(shè)備的預(yù)得分存儲部分中登記的數(shù)據(jù)的示例的視圖。圖8是圖示根據(jù)本公開的實(shí)施例的信息處理設(shè)備的預(yù)得分存儲部分中登記的數(shù)據(jù)的示例的視圖。圖9是圖示根據(jù)本公開的實(shí)施例的信息處理設(shè)備的預(yù)得分存儲部分中登記的數(shù)據(jù)的示例的視圖。圖10是圖示根據(jù)本公開的實(shí)施例的信息處理設(shè)備的預(yù)得分存儲部分中登記的數(shù)據(jù)的示例的視圖。圖11是圖示根據(jù)本公開的實(shí)施例的信息處理設(shè)備的預(yù)得分存儲部分中登記的數(shù)據(jù)的示例的視圖。圖12是圖示根據(jù)本公開的實(shí)施例的信息處理設(shè)備的硬件配置的示例的視圖。
具體實(shí)施例方式在下文中,將參考附圖詳細(xì)描述本公開的信息處理設(shè)備、信息處理方法及程序,以及將根據(jù)下面的項(xiàng)目來進(jìn)行描述。1.由本公開的信息處理設(shè)備執(zhí)行的處理的概述2.本公開的信息處理設(shè)備的配置和具體處理3.信息處理設(shè)備的硬件配置的示例[1.由本公開的信息處理設(shè)備執(zhí)行的處理的概述]首先,將參考圖2描述由本公開的信息處理設(shè)備執(zhí)行的處理的概述。圖2圖示了具有錄制和回放的功能的電視機(jī),作為根據(jù)本公開的信息處理設(shè)備的示例。例如,信息處理設(shè)備100執(zhí)行播放諸如硬盤、DVD、和藍(lán)光盤的內(nèi)置錄制及播放裝置中錄制的內(nèi)容的處理, 以及執(zhí)行將節(jié)目錄制到錄制及播放裝置的處理,也執(zhí)行顯示廣播內(nèi)容的處理。在信息處理設(shè)備100前方存在多個用戶。在該圖所示的示例中,存在用戶a 51、用戶b 52、和用戶c 53。這些用戶做出關(guān)于信息處理設(shè)備100的各種類型的請求。例如,他們請求頻道的改變、音量調(diào)整、開始錄制處理、顯示錄制的內(nèi)容的列表、播放從列表中選擇的內(nèi)容、停止播放、快進(jìn)等。用戶通過語音、即通過話語來做出這些請求。信息處理設(shè)備100包括設(shè)置有相機(jī) 101、麥克風(fēng)、和揚(yáng)聲器的語音輸入及輸出部分102。通過設(shè)置有麥克風(fēng)和揚(yáng)聲器的語音輸入及輸出部分102,將來自用戶a 51至用戶c 53的字輸入到信息處理設(shè)備100中。另外,通過相機(jī)101將用戶a 51至用戶c 53的圖像輸入到信息處理設(shè)備100中。信息處理設(shè)備100分析該輸入信息,確定要由設(shè)備執(zhí)行的動作,以及執(zhí)行動作。當(dāng)設(shè)備理解用戶的請求時,設(shè)備響應(yīng)請求執(zhí)行處理。處理的示例包括頻道的改變、選擇及播放內(nèi)容等。[2.本公開的信息處理設(shè)備的配置和具體處理]接下來,將參考從圖3開始的圖來描述本公開的信息處理設(shè)備的配置和具體處理。例如,圖3中示出的信息處理設(shè)備200對應(yīng)于圖2中示出的信息處理設(shè)備100。本發(fā)明的信息處理設(shè)備不限于電視機(jī),而是可實(shí)現(xiàn)為PC、播錄一體機(jī)、和各種類型的其它家用電器。即,本公開的信息處理設(shè)備是響應(yīng)用戶的請求執(zhí)行各種類型的處理的設(shè)備。如上參考圖1描述了語音識別處理的基本配置。在圖3示出的信息處理設(shè)備200 中,語音輸入201、AD轉(zhuǎn)換器205、特征提取部分206、和聲學(xué)模型208具有與以上參考圖1 描述的配置相同的配置,所以在下面的描述中將簡化對上述配置的描述。本實(shí)施例的信息處理設(shè)備200設(shè)置有包括近距離麥克風(fēng)202和遠(yuǎn)距離麥克風(fēng)203 的兩個麥克風(fēng)以及確定用戶使用哪個麥克風(fēng)的麥克風(fēng)確定部分204。近距離麥克風(fēng)202是在用戶與麥克風(fēng)之間的距離近的假定之下使用的麥克風(fēng)。例如,近距離麥克風(fēng)202對應(yīng)于用戶手持說話的麥克風(fēng),以及對應(yīng)于用戶手持使用的遙控器等中設(shè)置的麥克風(fēng)。另一方面, 遠(yuǎn)距離麥克風(fēng)203是在用戶與麥克風(fēng)之間的距離遠(yuǎn)的假定之下使用的麥克風(fēng)。例如,遠(yuǎn)距離麥克風(fēng)203對應(yīng)于天花板、墻、和電視機(jī)中安裝的麥克風(fēng),其在用戶于稍遠(yuǎn)離麥克風(fēng)的位置處說話的假定之下使用。麥克風(fēng)確定部204用于確定用戶使用近距離麥克風(fēng)202與遠(yuǎn)距離麥克風(fēng)203之間的哪一個來輸入語音(話語)。例如,當(dāng)用戶在按壓近距離麥克風(fēng)中設(shè)置的按鈕的同時輸入語音時,確定語音是通過近距離麥克風(fēng)輸入的,而當(dāng)用戶通過說話而沒有按壓按鈕來輸入語音時,確定語音是通過遠(yuǎn)距離麥克風(fēng)輸入的,由此可確定用戶使用哪個麥克風(fēng)來輸入語
曰O在該情況下,基于用戶是否按壓按鈕,麥克風(fēng)確定部204做出確定。僅將從已經(jīng)被麥克風(fēng)確定部204確定為用于用戶輸入語音的麥克風(fēng)輸入的語音信號發(fā)送給AD轉(zhuǎn)換器 205。而且,將麥克風(fēng)確定部204的確定結(jié)果作為上下文信息發(fā)送給上下文確定部216。稍后將詳細(xì)描述上下文確定部216。AD轉(zhuǎn)換器205采樣對應(yīng)于從麥克風(fēng)輸入的語音信號的模擬信號,從而生成數(shù)字信號。數(shù)字信號輸入到特征提取部分206中,繼之以適當(dāng)?shù)臅r間間隔的頻率分析等,然后轉(zhuǎn)換成表示語音的頻譜或其它聲學(xué)特征的參數(shù)。通過特征提取部分206的處理,獲得特征量群組,其為語音的特征量的時間序列數(shù)據(jù)。將在特征提取部分206中提取的特征量群組發(fā)送到多匹配部分207。基于從特征提取部分206發(fā)送的特征量群組和意圖模型AQ09-A)至意圖模型M209-N),多匹配部分 207計(jì)算關(guān)于每個意圖模型的得分。稍后將描述計(jì)算得分的方法。將意圖模型AQ09-A)至意圖模型M209-N)設(shè)定為對應(yīng)于基于用戶的話語而估計(jì)的每個意圖的模型。與用戶將做出的關(guān)于信息處理設(shè)備的請求的條目相關(guān)聯(lián)地登記這些意圖。盡管稍后將做出其詳細(xì)描述,在本公開的設(shè)備中,例如設(shè)定對應(yīng)于圖5中示出的下面A 至N :15種類型的意圖信息的意圖模型A至M209-A至209-N)。意圖信息A=[播放]意圖信息B =[快進(jìn)]
......意圖信息N =[設(shè)定演奏者]分別基于下面的數(shù)據(jù)來配置意圖模型AQ09-A)至意圖模型M209-N)。(1)意圖信息M209-A1)至意圖信息M209-N1)(2)預(yù)得分 M209-A2)至預(yù)得分 M209-N2)(3)詞典 M209-A3)至詞典 M209-N3)(4)語法 A (209-A4)至語法 N (209-N4)例如,意圖模型A (209-A)包括下面的具有意圖信息A (209-A1)、預(yù)得分 A(209-A2)、詞典 M209-A3)和語法 M209-A4)的數(shù)據(jù)。意圖信息是表示每個意圖模型對應(yīng)于什么意圖的信息。例如,將圖5中示出的下面的意圖信息登記為意圖模型A至M209-A至209-N)中的每個模型的意圖信息A至 N(209-A1 至 209-N1)。意圖信息A=[播放]意圖信息B =[快進(jìn)]......意圖信息N =[設(shè)定演奏者]預(yù)得分是預(yù)先提供給每個意圖模型的得分。稍后將詳細(xì)描述計(jì)算得分的過程。詞典配置有根據(jù)意圖信息定義的詞匯,并且包括與圖1中的詞典17相同的功能。 即,詞典是保存有關(guān)要識別的每個字的發(fā)音的信息的數(shù)據(jù)。以該方式,將字與上述聲學(xué)模型相關(guān)聯(lián)。因此,獲得對應(yīng)于詞典中包括的每個字的標(biāo)準(zhǔn)聲學(xué)特征。語法配置有二元語法或三元語法,其可呈現(xiàn)詞典中保存的字的連接概率。尤其,語法被配置為將高得分給予表示意圖信息的字群組的語法,并且包括與圖1中的語法18相同的功能。即,語法是描述將如何連接詞典中描述的單個字的數(shù)據(jù),以及使用基于形式語法或上下文無關(guān)語法的描述、包括字鏈接的統(tǒng)計(jì)連接概率的語法(元語法)等作為語法。多匹配部分207包括多個計(jì)算部分,例如聲學(xué)得分計(jì)算部分207a、語言得分計(jì)算部分207b、和預(yù)得分計(jì)算部分207c。在多匹配部分207中,使用參考圖1描述的聲學(xué)模型208和多個意圖模型 A(209-A)至意圖模型M209-N)來確定對于每個意圖模型的輸入語音最適合的字群組,以及計(jì)算關(guān)于各個字群組的聲學(xué)得分和語言得分。如以上參考圖1所描述的,聲學(xué)模型數(shù)據(jù)208保存諸如在要處理的語言中使用的單個音素和音節(jié)的聲學(xué)特征,其中要處理的語言包括例如日語或英語。使用隱馬爾可夫模型(HMM)等作為該模型。如上所述,意圖模型AQ09-A)至意圖模型N(209_N)中的每個包括下面的對應(yīng)于意圖模型A至N中的每個的部件。詞典M209-A3)至詞典 M209-N3)語法M209-A4)至語法 M209-N4)在本公開的信息處理設(shè)備中,通過使用聲學(xué)模型208與配置意圖模型A (209-A)至意圖模型M209-N)的一個意圖模型的組合,配置聲學(xué)模型和一組詞典及語法。因此,可能的是,以與圖1中的匹配部分15的處理相同的方式來確定對于輸入語音信號最適合的字群組。例如,多匹配部分207的聲學(xué)得分計(jì)算部分207a基于將根據(jù)由多匹配部分207配置的字模型群組中包括的字模型來觀測特征量群組的概率(出現(xiàn)的概率),來計(jì)算配置字群組的每個字的聲學(xué)得分。而且,多匹配部分207的語言得分計(jì)算部分207b基于由多匹配部分207配置的字群組中包括的字將被連接(彼此相鄰)的概率,來計(jì)算配置字群組的每個字的語言得分。此處,盡管圖1中的匹配部分15使用一組詞典和語法來執(zhí)行匹配處理,但是圖3 中示出的多匹配部分207使用多個詞典和語法的組合來執(zhí)行匹配處理。因此,針對各個詞典和語法的組合,即針對意圖模型A至N中的每個,確定對于輸入語音最適合的字群組,以及計(jì)算要給予字群組的聲學(xué)得分和語言得分。意圖模型A至N中的每個包括預(yù)得分AO09-A2)至預(yù)得分M209-N2)。例如,預(yù)得分是基于各個意圖的發(fā)生概率預(yù)先確定的得分。多匹配部分207的預(yù)得分計(jì)算部分207c基于意圖模型A至N的預(yù)得分A Q09-A2) 至預(yù)得分則209-擬),來計(jì)算關(guān)于意圖信息的預(yù)得分。當(dāng)所有的意圖等概率地發(fā)生時,將相同的得分計(jì)算為預(yù)得分。因此,圖3中示出的多匹配部分207計(jì)算下面的數(shù)據(jù)。(A)使用意圖模型A、聲學(xué)得分、語言得分、和預(yù)得分的設(shè)定信息而計(jì)算的對于輸入語音最適合的字群組(B)使用意圖模型B、聲學(xué)得分、語言得分、和預(yù)得分的設(shè)定信息而計(jì)算的對于輸入語音最適合的字群組......(N)使用意圖模型N、聲學(xué)得分、語言得分、和預(yù)得分的設(shè)定信息而計(jì)算的對于輸入語音最適合的字群組在圖3所示的多匹配部分207中,計(jì)算包括對于N組輸入語音、聲學(xué)得分、語言得分、和預(yù)得分最適合的字群組的數(shù)據(jù)。通過總計(jì)由聲學(xué)得分計(jì)算部分207a計(jì)算的聲學(xué)得分、由語言得分計(jì)算部分207b 計(jì)算的語言得分、和由預(yù)得分計(jì)算部分207c計(jì)算的預(yù)得分,可能的是,計(jì)算關(guān)于為每個意圖模型配置的字群組的總得分??偟梅钟米鞴烙?jì)與用戶話語對應(yīng)的意圖的得分。將作為多匹配部分207的處理結(jié)果而獲得的每個意圖的聲學(xué)得分、語言得分、和預(yù)得分與每個聲學(xué)模型保存的意圖信息相組合,并將作為多匹配部分207的處理結(jié)果而獲得的每個意圖的聲學(xué)得分、語言得分、和預(yù)得分發(fā)送到意圖確定部分210。在意圖確定部分 210中,比較通過總計(jì)每個意圖模型的聲學(xué)得分、語言得分、和預(yù)得分而計(jì)算的總得分,由此確定具有最佳(最高)得分的意圖模型。隨后,基于該結(jié)果,將與具有最佳得分的意圖模型對應(yīng)的意圖信息選擇為與輸入語音信號對應(yīng)的意圖信息。將該意圖信息輸出為語音理解結(jié)果 211。顯示部分213為用戶輸出和顯示由信息處理設(shè)備200執(zhí)行的處理的類別(類型) 信息212。例如,圖4圖示在顯示部分213上顯示的、由信息處理設(shè)備200執(zhí)行的處理的類別信息的示例。在圖4所示的示例中,顯示包括播放301、錄制302、檢索303、和設(shè)定304的四種類型的處理類別信息。
11
處理類別信息是由信息處理設(shè)備執(zhí)行的處理的類別,并且對應(yīng)于由信息處理設(shè)備 200響應(yīng)用戶的請求而執(zhí)行的處理的類別。例如,當(dāng)基于語音識別而執(zhí)行處理的設(shè)備是圖2 中所示的電視機(jī)時,除了圖4中所示的播放301、錄制302、檢索303、和設(shè)定304之外,還可設(shè)定其它處理類別,例如頻道的改變、音量的調(diào)節(jié)等。在下文中,為了簡化描述,將基于包括音樂數(shù)據(jù)的播放、錄制、檢索和設(shè)定信息的四個類別,來描述由信息處理設(shè)備200執(zhí)行的處理。在該情況下,如圖4所示,為用戶顯示包括播放301、錄制302、檢索303、和設(shè)定304的四種類型的處理類別信息。用戶做出與這些類型的處理類別信息中的任一個對應(yīng)的處理請求。用戶通過麥克風(fēng),即通過圖3中所示的近距離麥克風(fēng)201和遠(yuǎn)距離麥克風(fēng)203中的任一個來做出與包括播放301、錄制302、檢索303、和設(shè)定304的四種類型的處理類別信息中的任一個對應(yīng)的特定處理請求。例如,用戶說出諸如“播放”、“快進(jìn)”、和“倒回”的字作為對應(yīng)于播放301的處理類別,從而使信息處理設(shè)備200響應(yīng)這些指示來執(zhí)行處理。如圖5所示,在信息處理設(shè)備中的存儲器中預(yù)先登記與包括播放、錄制、檢索和設(shè)定的四種類型的處理類別對應(yīng)的意圖信息。例如,在播放的處理類別中,定義了 5種類型的意圖信息,包括“播放”、“快進(jìn)”、“倒回”、“移動到下一首音樂”和“移動回到前一首音樂”。同樣地,在錄制的處理類別中,設(shè)定4種類型的意圖信息“開始錄制”、“停止錄制”、“再繼續(xù)錄制”和“保存數(shù)據(jù)”;在檢索的處理類別中,設(shè)定3種類型的意圖信息“按名稱檢索”、“按流派檢索”和“按演奏者檢索”;以及在設(shè)定的處理類別中,設(shè)定3種類型的意圖信息“設(shè)定名稱”、“設(shè)定流派”和“設(shè)定演奏者”。以該方式,預(yù)先設(shè)定關(guān)于每個處理類別的一個或更多個意圖信息,并將其記錄在信息處理設(shè)備中的存儲器中。圖5中所示的意圖信息的總數(shù)量是15。在該情況下,針對圖3中所示的N個意圖模型209-A至209-N,設(shè)定15個意圖模型,以及設(shè)定包括下面信息的15個意圖模型A至N, 作為為圖3中所示的意圖模型209-A至209-N設(shè)定的意圖信息A至N。意圖信息A=[播放]意圖信息B =[快進(jìn)]......意圖信息N =[設(shè)定演奏者]圖3中所示的N個意圖模型209-A至209-N將對應(yīng)于每個意圖信息的預(yù)得分A至 N輸出到多匹配部分207。當(dāng)看見圖4中所示的顯示的處理類別信息時,用戶可通過使用例如控制器來選擇圖4中所示的處理類別信息之一(播放301、錄制302、檢索303、和設(shè)定304),其中該控制器配置有五個按鈕,包括如圖6中所示的四個方向按鈕和一個選擇按鈕。圖3中所示的控制器輸入對應(yīng)于由用戶從處理類別中選擇的信息,以及通過輸入及輸出部分215將由用戶執(zhí)行的選擇的結(jié)果輸入到上下文確定部分216中。輸入及輸出部分215向顯示部分213輸出要為用戶顯示的處理類別信息,以及將從輸入及輸出部分215 輸入的、由用戶選擇的處理類別信息輸出到上下文確定部分216。
在上下文確定部分216中,輸入用于估計(jì)用戶意圖的上下文信息。上下文信息是應(yīng)用于用戶意圖的估計(jì)的觀測信息,并且具體包括下面的信息。(A)從輸入及輸出部分215輸入的[由用戶選擇的處理類別信息](B)從圖像處理部分221輸入的[語音輸入個人識別信息](C)從麥克風(fēng)確定部分204輸入的[語音輸入麥克風(fēng)識別信息]在下面的描述中,將描述處理示例,在該處理示例中使用所有這3種類型的上下文信息。但是,不需要使用所有這3種類型的上下文信息,以及例如可使用這樣的配置,在這樣的配置中使用3種類型的上下文信息中的1個或2個信息。在上下文確定部分216中,除了上述作為從輸入及輸出部分215輸入的、由用戶選擇的信息的[由用戶選擇的處理類別信息]以外,還將包括來自圖像處理部分221的[語音輸入個人識別信息]和來自麥克風(fēng)確定部分204的[語音輸入麥克風(fēng)識別信息]的各個信息,輸入為用于估計(jì)用戶意圖的上下文信息。將描述[語音輸入個人識別信息],其被作為圖像處理的結(jié)果從圖像處理部分221 輸入到上下文確定部分216中。首先,將由用作諸如C⑶相機(jī)的成像裝置的相機(jī)218獲取的用戶圖像輸入為作為圖像信號的圖像輸入217。圖像信號在AD轉(zhuǎn)換器219中被轉(zhuǎn)換成數(shù)字信號,然后被發(fā)送到特征提取部分220。在特征提取部分220中,發(fā)送的圖像數(shù)據(jù)經(jīng)受臉部檢測和從檢測的臉部圖像中提取特征量。在本文中,臉部檢測對應(yīng)于從圖像數(shù)據(jù)中提取臉部區(qū)域(臉部的位置和大小),以及對應(yīng)于提取的臉部區(qū)域的部分被稱為臉部圖像。臉部圖像經(jīng)受對表示臉部特征的諸如眼睛、鼻子和嘴的部分的檢測以及對臉部的取向的檢測,然后執(zhí)行諸如仿射變換等的處理來在標(biāo)準(zhǔn)位置處定位臉部的各個部分。此后, 通過使用被稱為伽柏濾波器(Gabor filter)的、具有取向選擇性和不同頻率分量的多個濾波器,將臉部圖像的特征量提取為向量。將特征量發(fā)送到圖像處理部分221。在圖像處理部分221中,基于發(fā)送的特征量來執(zhí)行臉部識別的處理。在本文中,臉部識別對應(yīng)于使用由臉部檢測提取的臉部圖像在已經(jīng)登記了臉部圖像的人當(dāng)中識別圖像屬于哪個人的處理。例如將所謂的支持向量機(jī)或自適應(yīng)增強(qiáng)(Adaboost)的識別技術(shù)應(yīng)用于臉部識別。支持向量機(jī)是以通過使用非線性映射、在映射后獲得的特征空間中構(gòu)造超平面來表征的識別技術(shù),其中,在非線性映射中使用內(nèi)核函數(shù)(kernel function),該超平面分離從特定的同一人的臉部圖像中提取的特征量向量和從除同一人以外的人的臉部圖像中提取的特征量向量。自適應(yīng)增強(qiáng)是通過組合多個弱識別裝置來配置強(qiáng)識別裝置的技術(shù)。對于識別裝置中的任一個,使用這樣的方法在這樣的方法中,通過使用從預(yù)先登記的特定的同一人的臉部圖像中提取的特征量向量和從除同一人以外的人的登記的臉部圖像中提取的特征量向量,來預(yù)先配置識別裝置。使用臉部識別的識別裝置,圖像處理部分221確定與從相機(jī)218輸入的圖像信號中包括的臉部圖像對應(yīng)的人。此后,將確定結(jié)果作為[語音輸入個人識別信息]發(fā)送到上下文確定部分216。在上下文確定部分216中,輸入作為上下文信息的來自麥克風(fēng)確定部分204的[語音輸入麥克風(fēng)識別信息]。麥克風(fēng)確定部分204將[語音輸入麥克風(fēng)識別信息]作為上下文信息輸出到上下文確定部分216,[語音輸入麥克風(fēng)識別信息]表示已經(jīng)從近距離麥克風(fēng)202和遠(yuǎn)距離麥克風(fēng)203之間的哪個麥克風(fēng)輸入了語音信號。以該方式,在上下文確定部分216中,輸入包括下面信息的上下文信息。(A)從輸入及輸出部分215輸入的[由用戶選擇的處理類別信息](B)從圖像處理部分221輸入的[語音輸入個人識別信息](C)從麥克風(fēng)確定部分204輸入的[語音輸入麥克風(fēng)識別信息]為了基于以上信息計(jì)算和調(diào)整為圖3中所示的意圖模型A至M209-A至209-N) 中的每個設(shè)定的預(yù)得分A至M209-A2至209-擬),上下文確定部分216將輸入的上下文信息輸出到預(yù)得分調(diào)整部分222?;趶纳舷挛拇_定部分216輸入的上下文信息,預(yù)得分調(diào)整部分222計(jì)算預(yù)得分 A至M209-A2至209-N2)并將計(jì)算的值提供給意圖模型A至M209-A至209-N)?;趶纳舷挛拇_定部分216輸入的上下文信息,預(yù)得分調(diào)整部分222根據(jù)預(yù)先規(guī)定的算法來計(jì)算預(yù)得分 A 至 NQ09-A2 至 209-N2)。預(yù)得分存儲部分223存儲圖5、7和8中所示的上下文信息和對應(yīng)于上下文信息的意圖信息的組合數(shù)據(jù)。如上所述,圖5圖示了 [由用戶選擇的處理類別信息](=上下文信息)以及對應(yīng)于上下文信息中的每個的意圖信息,其中,[由用戶選擇的處理類別信息](=上下文信息) 通過輸入及輸出部分215被發(fā)送到上下文確定部分216,并被分類成4種類型,即包括[播放]、[錄制]、[檢索]、和[設(shè)定]的四種類型的上下文信息。圖7圖示了從麥克風(fēng)確定部分204發(fā)送的[語音輸入麥克風(fēng)識別信息](=上下文信息)以及對應(yīng)于[語音輸入麥克風(fēng)識別信息]中的每個的意圖信息。即,圖7圖示了包括[遠(yuǎn)距離麥克風(fēng)]和[近距離麥克風(fēng)]的兩種類型的上下文信息,以及對應(yīng)于上下文信息中的每個的意圖信息。圖8圖示了從圖像處理部分221發(fā)送的[語音輸入麥克風(fēng)識別信息](=上下文信息),以及對應(yīng)于[語音輸入麥克風(fēng)識別信息]中的每個的意圖信息。即,圖8圖示了包括[個人A]和[個人B]的兩種類型的上下文信息,以及對應(yīng)于上下文信息中的每個的意圖信息。在當(dāng)前示例中,設(shè)定了包括[個人A]和[個人B]的2個人。但是,可根據(jù)信息處理設(shè)備中預(yù)先登記的個人信息的數(shù)量來任意設(shè)定人的數(shù)目。在圖5、7和8中,僅示出了上下文信息中的每個與對應(yīng)于上下文的意圖信息的組合。但是,作為預(yù)得分,為對應(yīng)于上下文信息中的每個的意圖信息設(shè)定高值(例如1.0),而為不對應(yīng)于上下文信息的意圖信息設(shè)定低值(例如0. 0)。具體地,例如,在圖5所示的示例中,將包括[播放]至[移動回到前一首音樂] 的5種類型的意圖信息登記為對應(yīng)于上下文[播放]的意圖信息。在該情況下,針對包括意圖信息[播放]至[移動回到前一首音樂]的5種類型的意圖信息,將關(guān)于上下文[播放]的預(yù)得分(對應(yīng)于上下文的預(yù)得分)設(shè)定成高值,而將包括[開始錄制]至[設(shè)定演奏者]的其它類型的意圖信息的預(yù)得分設(shè)定成低值。
圖9至圖11示出預(yù)得分存儲部分223中存儲的預(yù)得分的設(shè)定的示例。得分是與各個上下文中的每個相關(guān)聯(lián)地設(shè)定的[對應(yīng)于上下文的預(yù)得分]。S卩,圖9是關(guān)于(A)[由用戶選擇的處理類別信息]的[對應(yīng)于上下文的預(yù)得分] 的設(shè)定的示例,其中,[由用戶選擇的處理類別信息]是從輸入及輸出部分215輸入的上下 3Cfn 息。圖10是關(guān)于(B)[語音輸入個人識別信息]的[對應(yīng)于上下文的預(yù)得分]的設(shè)定的示例,其中,[語音輸入個人識別信息]是從圖像處理部分221輸入的上下文信息。圖11是關(guān)于(C)[語音輸入麥克風(fēng)識別信息]的[對應(yīng)于上下文的預(yù)得分]的設(shè)定的示例,其中,[語音輸入麥克風(fēng)識別信息]是從麥克風(fēng)確定部分204輸入的上下文信息。圖9是關(guān)于(A)[由用戶選擇的處理類別信息]的[對應(yīng)于上下文的預(yù)得分]的設(shè)定的示例,其中,[由用戶選擇的處理類別信息]是從輸入及輸出部分215輸入的上下文 fn息ο例如,當(dāng)通過輸入及輸出部分215和上下文確定部分216將用戶已經(jīng)把[播放] 選擇為處理類別的上下文信息輸入到預(yù)得分調(diào)整部分222中時,為圖9中所示的條目[播放]列中的條目設(shè)定的、包括[播放]=0. 9至[設(shè)定演奏者]=0. 01的對應(yīng)于上下文的 15個預(yù)得分,被選擇為對應(yīng)于與每個意圖對應(yīng)的上下文的預(yù)得分。如由與圖9中所示的上下文對應(yīng)的預(yù)得分所示的,當(dāng)用戶將[播放]選擇為處理類別時,關(guān)于與播放處理對應(yīng)的意圖而選擇的預(yù)得分高。對于與播放處理不對應(yīng)的其它意圖(開始錄制至設(shè)定演奏者),設(shè)定低值。另外,關(guān)于與每個處理類別對應(yīng)的意圖,將以上參考圖5描述的數(shù)據(jù)存儲在預(yù)得分存儲部分223中。例如,當(dāng)用戶將[錄制]選擇為處理類別時,為圖9中所示的條目[錄制]列中的條目設(shè)定的、包括[播放]=0. 2至[設(shè)定演奏者]=0. 02的對應(yīng)于上下文的15個預(yù)得分,被選擇為對應(yīng)于與每個意圖對應(yīng)的上下文的預(yù)得分,并稍后用于接下來的處理。當(dāng)用戶將[檢索]選擇為處理類別時,為圖9中所示的條目[檢索]列中的條目設(shè)定的、包括[播放]=0. 2至[設(shè)定演奏者]=0. 3的對應(yīng)于上下文的15個預(yù)得分,被選擇為對應(yīng)于與每個意圖對應(yīng)的上下文的預(yù)得分,并稍后用于接下來的處理。當(dāng)用戶將[設(shè)定]選擇為處理類別時,為圖9中所示的條目[設(shè)定]列中的條目設(shè)定的、包括[播放]=0. 1至[設(shè)定演奏者]=0. 8的對應(yīng)于上下文的15個預(yù)得分,被選擇為對應(yīng)于與每個意圖對應(yīng)的上下文的預(yù)得分,并稍后用于接下來的處理。還可通過預(yù)先設(shè)定固定值和連續(xù)使用固定值,來設(shè)定圖9中所示的[對應(yīng)于上下文的預(yù)得分]。但是,在設(shè)定初始值之后,信息處理設(shè)備可學(xué)習(xí)此后由用戶執(zhí)行的實(shí)際處理, 并基于學(xué)習(xí)數(shù)據(jù)來更新數(shù)據(jù)。例如,如果用戶頻繁地在將[播放]選擇為處理類別之后將[倒回]的處理請求作為要執(zhí)行的處理,則信息處理設(shè)備執(zhí)行更新以逐漸地提高與[播放]意圖=[倒回]對應(yīng)的預(yù)得分。將該處理執(zhí)行為圖3中所示的預(yù)得分學(xué)習(xí)部分224的處理。圖10是關(guān)于(B)[語音輸入個人識別信息]的[對應(yīng)于上下文的預(yù)得分]的設(shè)定的示例,其中,[語音輸入個人識別信息]是從圖像處理部分221輸入的上下文信息。
已經(jīng)將[個人A]和[個人B]登記為語音輸入個人,以及已經(jīng)設(shè)定對應(yīng)于這些個人的預(yù)得分。例如,在圖3所示的圖像處理部分221中,當(dāng)語音輸入個人被識別為[個人A]以及通過圖像處理部分221和上下文確定部分216將表示[個人A]是語音輸入個人的上下文信息輸入到預(yù)得分調(diào)整部分222中時,為圖10中所示的條目[個人A]列中的條目設(shè)定的、包括[播放]=0. 9至[設(shè)定演奏者]=0. 1的對應(yīng)于上下文的15個預(yù)得分,被選擇為對應(yīng)于與每個意圖對應(yīng)的上下文的預(yù)得分,并稍后用于接下來的處理。為圖10中所示的條目[個人A]列中的條目設(shè)定的對應(yīng)于上下文的預(yù)得分是基于表示[個人A]頻繁地執(zhí)行播放處理但很少執(zhí)行錄制處理的信息而預(yù)先登記的數(shù)據(jù)。另一方面,當(dāng)語音輸入個人被識別為[個人B]時,為圖10中所示的條目[個人B] 列中的條目設(shè)定的、包括[播放]=0. 3至[設(shè)定演奏者]=0. 9的對應(yīng)于上下文的15個預(yù)得分,被選擇為對應(yīng)于與每個意圖對應(yīng)的上下文的預(yù)得分,并稍后用于接下來的處理。這些得分是基于表示[個人B]很少執(zhí)行播放處理但頻繁地執(zhí)行錄制處理的信息而預(yù)先登記的數(shù)據(jù)。可預(yù)先自由地設(shè)定預(yù)得分,或者預(yù)得分可經(jīng)受得分更新,在得分更新中,設(shè)定適當(dāng)?shù)某跏贾?,然后基于由每個個人在信息處理設(shè)備中執(zhí)行的實(shí)際處理來執(zhí)行學(xué)習(xí)處理,以將高得分給予頻繁執(zhí)行的處理,而將低得分給予很少執(zhí)行的處理。將該學(xué)習(xí)處理執(zhí)行為圖3所示的預(yù)得分學(xué)習(xí)部分224的處理。圖11是關(guān)于(C)[語音輸入麥克風(fēng)識別信息]的[對應(yīng)于上下文的預(yù)得分]的設(shè)定的示例,其中,[語音輸入麥克風(fēng)識別信息]是從麥克風(fēng)確定部分204輸入的上下文信息。例如,在圖3所示的麥克風(fēng)確定部分204中,當(dāng)語音輸入麥克風(fēng)被識別為[遠(yuǎn)距離麥克風(fēng)]以及通過麥克風(fēng)確定部分204和上下文確定部分216將表示語音輸入麥克風(fēng)是[遠(yuǎn)距離麥克風(fēng)]的上下文信息輸入到預(yù)得分調(diào)整部分222中時,為圖11中所示的條目 [遠(yuǎn)距離麥克風(fēng)]列中的條目設(shè)定的、包括[播放]=0. 9至[設(shè)定演奏者]=0. 1的對應(yīng)于上下文的15個預(yù)得分,被選擇為對應(yīng)于與每個意圖對應(yīng)的上下文的預(yù)得分,并稍后用于接下來的處理。為圖11中所示的條目[遠(yuǎn)距離麥克風(fēng)]列中的條目設(shè)定的對應(yīng)于上下文的預(yù)得分是基于表示由通過[遠(yuǎn)距離麥克風(fēng)]輸入的指示頻繁地執(zhí)行播放處理但很少執(zhí)行檢索處理的信息而預(yù)先登記的數(shù)據(jù)。另一方面,當(dāng)語音輸入麥克風(fēng)被識別為[近距離麥克風(fēng)]時,為圖11中所示的條目[近距離麥克風(fēng)]列中的條目設(shè)定的、包括[播放]=0.1至[設(shè)定演奏者]=0.9的對應(yīng)于上下文的15個預(yù)得分,被選擇為對應(yīng)于與每個意圖對應(yīng)的上下文的預(yù)得分,并稍后用于接下來的處理。這些得分是基于表示由通過[近距離麥克風(fēng)]輸入的指示很少執(zhí)行播放處理但頻繁地執(zhí)行檢索處理的信息而預(yù)先登記的數(shù)據(jù)。可預(yù)先自由地設(shè)定預(yù)得分,或者預(yù)得分可經(jīng)受得分更新,在得分更新中,設(shè)定適當(dāng)?shù)某跏贾?,然后在信息處理設(shè)備中執(zhí)行對每個麥克風(fēng)的實(shí)際應(yīng)用處理進(jìn)行分析的學(xué)習(xí)處理,以針對作為單元的每個麥克風(fēng)將高得分給予頻繁執(zhí)行的處理,而將低得分給予很少執(zhí)行的處理。
將該處理執(zhí)行為圖3所示的預(yù)得分學(xué)習(xí)部分224的處理。以該方式,預(yù)得分調(diào)整部分222參考預(yù)得分存儲部分223中登記的信息(圖9至圖11),基于從上下文確定部分216發(fā)送的上下文信息,來執(zhí)行對為意圖模型A至M209-A 至209-N)的預(yù)得分A至M209-A2至209-擬)設(shè)定的預(yù)得分值進(jìn)行調(diào)整的處理。存在從上下文確定部分216發(fā)送到預(yù)得分調(diào)整部分222的、如下三種類型的上下 3Cfn 息。(A)從輸入及輸出部分215輸入的[由用戶選擇的處理類別信息](B)從圖像處理部分221輸入的[語音輸入個人識別信息](C)從麥克風(fēng)確定部分204輸入的[語音輸入麥克風(fēng)識別信息]基于3種類型的上下文信息中的每個,預(yù)得分調(diào)整部分222計(jì)算[總預(yù)得分],作為通過考慮所有的[對應(yīng)于上下文的預(yù)得分]而計(jì)算的結(jié)果,以及將[總預(yù)得分]設(shè)定為圖3中所示的意圖模型A至M209-A至209-N)的預(yù)得分A至M209-A2至209-N2),其中 [對應(yīng)于上下文的預(yù)得分]是與圖9至圖11中所示的每個上下文對應(yīng)的預(yù)得分。例如,當(dāng)基于麥克風(fēng)確定部分204的處理結(jié)果發(fā)送[近距離麥克風(fēng)]的上下文信息時,通過應(yīng)用對應(yīng)于為條目[近距離麥克風(fēng)]設(shè)定的上下文的預(yù)得分來計(jì)算[總預(yù)得分],然后將[總預(yù)得分]設(shè)定為圖3中所示的意圖模型A至M209-A至209-N)的預(yù)得分 A至M209-A2至209-N2),其中對應(yīng)于為條目[近距離麥克風(fēng)]設(shè)定的上下文的預(yù)得分是與圖11中所示的上下文對應(yīng)的預(yù)得分。而且,當(dāng)發(fā)送[遠(yuǎn)距離麥克風(fēng)]的上下文信息時,通過應(yīng)用對應(yīng)于為條目[遠(yuǎn)距離麥克風(fēng)]設(shè)定的上下文的預(yù)得分來計(jì)算[總預(yù)得分],然后將[總預(yù)得分]設(shè)定為圖3中所示的意圖模型A至M209-A至209-N)的預(yù)得分A至M209-A2至209-N2),其中對應(yīng)于為條目[遠(yuǎn)距離麥克風(fēng)]設(shè)定的上下文的預(yù)得分是與圖11中所示的上下文對應(yīng)的預(yù)得分。當(dāng)根據(jù)用戶與麥克風(fēng)之間的距離來約束可由用戶指令的物體時,將近距離麥克風(fēng)和遠(yuǎn)距離麥克風(fēng)作為上下文信息是有效的。例如,假設(shè)這樣的情況在這樣的情況中,遠(yuǎn)距離麥克風(fēng)僅處理被約束到每日使用的指令,而近距離麥克風(fēng)處理更自由地提供的指令。一般,用戶與麥克風(fēng)之間的距離越遠(yuǎn),根據(jù)語音估計(jì)意圖的性能就越差。因此,為改進(jìn)遠(yuǎn)距離麥克風(fēng)的意圖估計(jì)的性能,約束可由用戶指令的物體扮演重要的角色。以類似的方式,當(dāng)基于輸入及輸出部分215的處理結(jié)果發(fā)送[播放]的上下文信息時,通過應(yīng)用對應(yīng)于為條目[播放]設(shè)定的上下文的預(yù)得分來計(jì)算[總預(yù)得分],然后將 [總預(yù)得分]設(shè)定為圖3中所示的意圖模型A至M209-A至209-N)的預(yù)得分A至M209-A2 至209-N2),其中對應(yīng)于為條目[播放]設(shè)定的上下文的預(yù)得分是與圖9中所示的上下文對應(yīng)的預(yù)得分。一般,要處理的意圖信息的總量越大,根據(jù)語音估計(jì)意圖的性能就越差。因此,為改進(jìn)意圖估計(jì)的性能,約束可由用戶根據(jù)用戶做出的指派而指令的物體扮演重要的角色。當(dāng)基于圖像處理部分221的處理結(jié)果發(fā)送[個人A]的上下文信息時,通過應(yīng)用對應(yīng)于為條目[個人A]設(shè)定的上下文的預(yù)得分來計(jì)算[總預(yù)得分],然后將[總預(yù)得分]設(shè)定為圖3中所示的意圖模型A至M209-A至209-N)的預(yù)得分A至M209-A2至209-N2), 其中對應(yīng)于為條目[個人A]設(shè)定的上下文的預(yù)得分是與圖10中所示的上下文對應(yīng)的預(yù)得分。
通過使用這樣的屬性取決于使用系統(tǒng)的個人、一些功能被頻繁使用而一些其它功能很少被使用,該處理扮演將高得分給予每個人以高頻率使用的意圖信息。當(dāng)可預(yù)先確定與上下文信息對應(yīng)的意圖信息的組合時,可將低得分給予與上下文信息不對應(yīng)的意圖信息。特別地,當(dāng)將預(yù)得分設(shè)定為0.0時,不需要計(jì)算關(guān)于與意圖信息對應(yīng)的意圖模型的聲學(xué)得分和語言得分,所以可有效地減少計(jì)算量?;趶纳舷挛拇_定部分216輸入的下面3種類型的上下文信息,即基于(A)從輸入及輸出部分215輸入的[由用戶選擇的處理類別信息](B)從圖像處理部分221輸入的[語音輸入個人識別信息](C)從麥克風(fēng)確定部分204輸入的[語音輸入麥克風(fēng)識別信息],預(yù)得分調(diào)整部分222選擇[對應(yīng)于上下文的預(yù)得分],通過應(yīng)用所選擇的[對應(yīng)于上下文的預(yù)得分]來計(jì)算[總得分],以及將所計(jì)算的[總得分]設(shè)定為圖3中所示的意圖模型A至N(209-A至209-N)的預(yù)得分A至M209-A2至209-N2),其中,[對應(yīng)于上下文的預(yù)得分]是與圖9至圖11中所示的每個上下文對應(yīng)的預(yù)得分。將如下描述該處理的詳細(xì)示例。首先,將描述基于語音理解的意圖估計(jì)處理的基本處理示例。下面的公式(1)是用于計(jì)算意圖發(fā)生概率P(S|X)的公式,其中意圖P(S|X)用于在語音理解中估計(jì)意圖。在以上公式(1)中,X表示輸入語音信號,S表示意圖,而P(X|S)表示當(dāng)存在意圖 (S)時將獲得輸入信號(X)的概率。由公式(1)計(jì)算的意圖發(fā)生概率P (S |X)表示當(dāng)檢測到輸入語音信號[X]時、信號的意圖將為[S]的概率?;诠?1)將語音理解公式化,以確定具有最大發(fā)生概率的意圖S。例如,當(dāng)?shù)怯泩D5、和圖9至圖11中所示的包括[播放]至[設(shè)定演奏者]的15 種類型的意圖時,如此設(shè)定15種類型的意圖中的每個,以便Sl=[播放]S2=[快進(jìn)]......S15 =[設(shè)定演奏者]針對意圖信息Sl至S15計(jì)算發(fā)生概率P (Si |X)至P(S15 |X),以及在計(jì)算的15個發(fā)生概率中選擇具有最大值的意圖(Si至SK)。將選擇的意圖確定為用戶的意圖。這是意圖估計(jì)的基本處理。在根據(jù)圖3所示的本公開的信息處理設(shè)備中,圖3中所示的多匹配部分207和意圖確定部分210通過將公式(1)修改為下面的公式(2)來使用公式(1),其中公式(1)是基于語音理解的意圖估計(jì)的基本公式。 I\S I X)=
PjX I S) P(S)
^ρ η
公式⑴
尸 CSI JQ =
P(X\wsl,ws2
,wsn\s)bp(sy
■;wsn\S)bP(S)
18
......公式 O)在以上公式⑵中,Wsi (i = 1,…N)表示關(guān)于意圖S而定義的字。即,基于用關(guān)于意圖S而定義的字配置的字群組Wsl,ws2,…,Wsn,計(jì)算聲學(xué)得分。該得分對應(yīng)于概率P (X|wsl,Ws2,…,wj。另外,關(guān)于特定意圖S而計(jì)算的語言得分對應(yīng)于概率P (Wsl,ws2,…,WsJS)。而且,要給予特定意圖S的發(fā)生概率(預(yù)概率)P (S)對應(yīng)于意圖模型A至M209-A 至209-N)中的每個中設(shè)定的預(yù)得分Q09-A2至209-N2)。a、b和c分別表示為語音理解中的每個意圖模型計(jì)算的聲學(xué)得分、語言得分和預(yù)得分的權(quán)重。將預(yù)設(shè)值用作a、b和C。如上所述,圖3中所示的多匹配部分207計(jì)算下面的數(shù)據(jù)。(A)使用意圖模型A、聲學(xué)得分、語言得分、和預(yù)得分的設(shè)定信息而計(jì)算的對于輸入語音最適合的字群組(B)使用意圖模型B、聲學(xué)得分、語言得分、和預(yù)得分的設(shè)定信息而計(jì)算的對于輸入語音最適合的字群組......(N)使用意圖模型N、聲學(xué)得分、語言得分、和預(yù)得分的設(shè)定信息而計(jì)算的對于輸入語音最適合的字群組在圖3所示的多匹配部分207中,計(jì)算包括對于N組輸入語音、聲學(xué)得分、語言得分和預(yù)得分最適合的字群組的數(shù)據(jù)。與每個意圖模型對應(yīng)的字群組對應(yīng)于公式O)中所示的字群組Wsi (i = 1,…N), 艮口 Wsl,Ws2, ...,wsn。聲學(xué)得分對應(yīng)于公式O)中所示的概率P(X|wsl,ws2,…,wsn)。語言得分對應(yīng)于公式O)中所示的概率P (Wsl,Ws2,…,wsn|S)。如上所述,用作發(fā)生概率(預(yù)概率)P(S)的預(yù)得分Q09-A2至209-N2)是基于下面3種類型的上下文信息、通過應(yīng)用從圖9至圖11所示的每個上下文中提取的[對應(yīng)于上下文的預(yù)得分]而計(jì)算的[總預(yù)得分]。(A)從輸入及輸出部分215輸入的[由用戶選擇的處理類別信息](B)從圖像處理部分221輸入的[語音輸入個人識別信息](C)從麥克風(fēng)確定部分204輸入的[語音輸入麥克風(fēng)識別信息]將作為多匹配部分207的處理結(jié)果獲得的每個意圖的聲學(xué)得分、語言得分和預(yù)得分與由每個意圖模型保存的意圖信息相組合,然后將作為多匹配部分207的處理結(jié)果獲得的每個意圖的聲學(xué)得分、語言得分和預(yù)得分發(fā)送給意圖確定部分210。意圖確定部分210比較通過總計(jì)有關(guān)每個意圖模型的聲學(xué)得分、語言得分和預(yù)得分而計(jì)算的總得分,由此確定具有最佳(最高)得分的意圖模型。具體地,將該確定處理執(zhí)行為公式O)的每個意圖的發(fā)生概率P(S|X)的比較處理。計(jì)算最高發(fā)生概率P (S IX)所針對的意圖,即將意圖A至N中的任一個確定為與用戶話語對應(yīng)的語音理解結(jié)果211。在本公開的信息處理設(shè)備200中,以上公式(2)中使用的發(fā)生概率(預(yù)概率)P (S) 的值,即預(yù)得分P6)的值不是總固定的,而是可根據(jù)上下文適當(dāng)?shù)卣{(diào)整。該調(diào)整處理使改進(jìn)意圖估計(jì)的性能成為可能。另外,關(guān)于預(yù)得分P(S) =0.0的意圖信息,可省略下面的計(jì)
笪弁。聲學(xué)得分:P(X|wsl,ws2,…,Wsn)語言得分P(Wsl,Ws2,…,wsn|S)將描述應(yīng)用在本公開的信息處理設(shè)備中的計(jì)算預(yù)得分P(S)的方法。公式O)中包括的P(S)是要給予特定意圖S的發(fā)生概率(預(yù)概率)P(S),并對應(yīng)于預(yù)得分的值。在本公開的信息處理設(shè)備中,將預(yù)得分P (S)作為總預(yù)得分P(S),該總預(yù)得分P (S) 是作為通過考慮所有下面3種類型的上下文信息而獲得的結(jié)果。即,計(jì)算和使用[總預(yù)得分],該[總預(yù)得分]是通過考慮所有的[對應(yīng)于上下文的預(yù)得分]而獲得的結(jié)果。[對應(yīng)于上下文的預(yù)得分]是對應(yīng)于每個上下文的預(yù)得分,其中基于下面3種類型的上下文信息中的每個來計(jì)算[對應(yīng)于上下文的預(yù)得分]。(A)從輸入及輸出部分215輸入的[由用戶選擇的處理類別信息](B)從圖像處理部分221輸入的[語音輸入個人識別信息](C)從麥克風(fēng)確定部分204輸入的[語音輸入麥克風(fēng)識別信息]用于計(jì)算總預(yù)得分P(S)的公式被示出為下面的公式(3)。P(S) =P (C1) P (S I C1) +P (C2) P (S | C2) +-+P (Ck) P (S | Ck)......公式(3)在公式(3)中,K表示從上下文確定部分216發(fā)送的上下文信息的數(shù)量。在圖2所示的示例中,將下面3種類型的上下文信息輸入到上下文確定部分216中。(A)從輸入及輸出部分215輸入的[由用戶選擇的處理類別信息](B)從圖像處理部分221輸入的[語音輸入個人識別信息](C)從麥克風(fēng)確定部分204輸入的[語音輸入麥克風(fēng)識別信息]相應(yīng)地,K= 3。另外,Ck表示每個上下文信息。C1表示從麥克風(fēng)確定部分204發(fā)送的上下文信息,C2表示從輸入及輸出部分215 發(fā)送的上下文信息,以及C3表示從圖像處理部分221發(fā)送的上下文信息。位于右端的P (S I Ck)表示當(dāng)檢測到某個類型的上下文信息Ck時將發(fā)生意圖S的概率,并對應(yīng)于參考圖9至圖11所描述的表中的值,即預(yù)得分存儲部分223中存儲的[對應(yīng)于上下文的預(yù)得分]。另外,P(Ck)表示P(S|Ck)的權(quán)重。將預(yù)設(shè)的值用作權(quán)重。例如,如圖11所示,當(dāng)意圖S表示[播放]、而從麥克風(fēng)確定部分204發(fā)送的上下文信息C1表示[遠(yuǎn)距離麥克風(fēng)]時,預(yù)得分P (S I C1) =0.9。例如,如圖11所示,當(dāng)意圖S表示[快進(jìn)]、而上下文信息C1表示[近距離麥克風(fēng)]時,預(yù)得分P(SlC1) = 0. 1。將描述基于公式(3)計(jì)算[總預(yù)得分]的具體示例。例如,如此設(shè)定對應(yīng)于每個 [對應(yīng)于上下文的預(yù)得分]的權(quán)重,以便P (C1) =0.5,P(C2) =0.6,以及P(C3) =0.4。在本文中,
從麥克風(fēng)確定部分204發(fā)送的[語音輸入麥克風(fēng)識別信息],即上下文信息C1是 [近距離麥克風(fēng)],從輸入及輸出部分215發(fā)送的[由用戶選擇的處理類別信息],即上下文信息C2 是[播放]從圖像處理部分221發(fā)送的[語音輸入個人識別信息],即上下文信息C3是[個人B]。此時,關(guān)于意圖S[播放],通過預(yù)得分存儲部223從圖9至圖11所示的[對應(yīng)于上下文的預(yù)得分]的設(shè)定值中獲得諸如P(SlC1) =0.1、P(SlC2) =0.9和P(SlC3) =0.3 的值。接下來,通過公式(3)來計(jì)算每個[對應(yīng)于上下文的預(yù)得分]和權(quán)重,以及將該計(jì)算的結(jié)果相加以計(jì)算最終的[總預(yù)得分P(s)],在[總預(yù)得分P(S)]中已經(jīng)考慮了所有的上下又{曰息。即,根據(jù)公式,總預(yù)得分P (S) = 0. 5X0. 1+0. 6X0. 9+0. 4X0. 3 = 0. 71,計(jì)算其中
已經(jīng)考慮了所有上下文信息的最終的[總預(yù)得分]p(s)。例如,當(dāng)圖3中所示的意圖模型AO09-A)的意圖信息A=[播放]時,,在預(yù)得分調(diào)整部分222中計(jì)算作為以上計(jì)算結(jié)果獲得的總預(yù)得分、即總預(yù)得分P(S)= 0. 5X0. 1+0.6X0. 9+0. 4X0. 3 = 0. 71并將其設(shè)定為意圖模型AQ09-A)的預(yù)得分 A(209-A2)。在預(yù)得分調(diào)整部分222中,關(guān)于所有的意圖信息([播放]至[設(shè)定演奏者]),選擇圖9至圖11中所示的[對應(yīng)于上下文的預(yù)得分]的設(shè)定值,以及基于下面3種類型的上下文信息來計(jì)算總預(yù)得分P (S)。(A)從輸入及輸出部分215輸入的[由用戶選擇的處理類別信息](B)從圖像處理部分221輸入的[語音輸入個人識別信息](C)從麥克風(fēng)確定部分204輸入的[語音輸入麥克風(fēng)識別信息]預(yù)得分調(diào)整部分222將作為計(jì)算值的總預(yù)得分設(shè)定為意圖模型A至M209-A至 209-N)中的每個的預(yù)得分A至M209-A2至209-N2)。以該方式,對于意圖模型A至M209-A至209-N)中的每個的預(yù)得分A至M209-A2 至209-N2),設(shè)定使用圖9至圖11中所示的[對應(yīng)于上下文的預(yù)得分]而計(jì)算的[總預(yù)得分]。如上所述,在根據(jù)圖3所示的本公開的信息處理設(shè)備中,圖3中所示的多匹配部分 207計(jì)算下面的數(shù)據(jù)。(A)使用意圖模型A、聲學(xué)得分、語言得分、和預(yù)得分的設(shè)定信息而計(jì)算的對于輸入語音最適合的字群組(B)使用意圖模型B、聲學(xué)得分、語言得分、和預(yù)得分的設(shè)定信息而計(jì)算的對于輸入語音最適合的字群組......(N)使用意圖模型N、聲學(xué)得分、語言得分、和預(yù)得分的設(shè)定信息而計(jì)算的對于輸入語音最適合的字群組S卩,圖3中所示的多匹配部分207計(jì)算包括對于N組輸入語音、聲學(xué)得分、語言得
21分和預(yù)得分最適合的字群組的數(shù)據(jù)。與每個意圖模型對應(yīng)的字群組對應(yīng)于公式O)中所示的字群組Wsi (i = 1,…N), 艮口 Wsl,Ws2, ...,wsn。聲學(xué)得分對應(yīng)于公式O)中所示的概率P(X|wsl,ws2,…,wj。語言得分對應(yīng)于公式O)中所示的概率P (Wsl,Ws2,…,wsn|S)。如上所述,用作發(fā)生概率(預(yù)概率)P (S)的預(yù)得分Q09-A2至209-N2)是基于下面 3種類型的上下文信息中的每個、通過應(yīng)用從圖9至圖11所示的每個上下文中提取的[對應(yīng)于上下文的預(yù)得分]而計(jì)算的[總預(yù)得分]。(A)從輸入及輸出部分215輸入的[由用戶選擇的處理類別信息](B)從圖像處理部分221輸入的[語音輸入個人識別信息](C)從麥克風(fēng)確定部分204輸入的[語音輸入麥克風(fēng)識別信息]將作為多匹配部分207的處理結(jié)果而獲得的每個意圖的聲學(xué)得分、語言得分和預(yù)得分與由每個意圖模型保存的意圖信息相組合,然后將作為多匹配部分207的處理結(jié)果而獲得的每個意圖的聲學(xué)得分、語言得分和預(yù)得分發(fā)送給意圖確定部分210。通過比較經(jīng)由總計(jì)有關(guān)每個意圖模型的聲學(xué)得分、語言得分和預(yù)得分而計(jì)算的總得分,意圖確定部分210確定具有最佳(最高)得分的意圖模型。將該確定處理執(zhí)行為對公式( 的每個意圖的發(fā)生概率P(S|X)進(jìn)行比較的處理。 計(jì)算最高發(fā)生概率P(S |X)所針對的意圖,即將意圖A至N中的任一個確定為與用戶話語對應(yīng)的語音理解結(jié)果211。在預(yù)得分存儲部分223中存儲公式(3)中所示的權(quán)重P (Ck)和[對應(yīng)于上下文的預(yù)得分]P(SiCk),并且預(yù)先設(shè)定權(quán)重P(Ck)和[對應(yīng)于上下文的預(yù)得分]P(SICk)的值。可將預(yù)定的固定值用作預(yù)先設(shè)定的值,或者可通過如下將描述的預(yù)得分學(xué)習(xí)部分2M來動態(tài)地設(shè)定值。接下來,將描述預(yù)得分學(xué)習(xí)部分224的處理。如圖3所示,由意圖確定部分210確定的意圖信息S不僅被輸出為語音理解結(jié)果221,而且被反饋回到預(yù)得分學(xué)習(xí)部分224。從上下文確定部分216發(fā)送的所有的上下文信息Ck被從預(yù)得分調(diào)整部分222發(fā)送給預(yù)得分學(xué)習(xí)部分224。在預(yù)得分學(xué)習(xí)部分224中,基于從預(yù)得分調(diào)整部分222發(fā)送的上下文信息Ck和作為從意圖確定部分210發(fā)送的語音理解結(jié)果的意圖信息S,計(jì)算P (S I Ck)并將其發(fā)送到預(yù)得分存儲部分223。將該值(圖9至圖11中所示的值)存儲在預(yù)得分存儲部分223中??蓪 (S I Ck)確定為將根據(jù)上下文信息Ck觀測到意圖信息S的條件概率P (S | Ck) 的值。對于從意圖確定部分210輸出的意圖信息,假設(shè)其中包括確定錯誤的情況。在本文中,當(dāng)用戶修改輸出結(jié)果時,通過將修改的信息發(fā)送給預(yù)得分學(xué)習(xí)部分224,可更準(zhǔn)確地確定條件概率P (S| Ck)。[3.信息處理設(shè)備的硬件配置的示例]最后,將參考圖12描述執(zhí)行上述處理的信息處理設(shè)備的硬件配置的示例。CPU(中央處理單元)701根據(jù)R0M(只讀存儲器)702或存儲部分708中存儲的程序來執(zhí)行各種處理。RAM(隨機(jī)訪問存儲器)703適當(dāng)?shù)卮鎯τ蒀PU 701執(zhí)行的程序和數(shù)據(jù)。CPU 701、ROM 702和RAM 703通過總線704彼此連接。CPU 701通過總線704連接到輸入及輸出接口 705,并且輸入及輸出接口 705連接到配置有相機(jī)、麥克風(fēng)、控制器、遙控器、鍵盤、鼠標(biāo)等的輸入部分706,以及輸入及輸出接口 705連接到包括顯示器、揚(yáng)聲器等的輸出部分707。例如,CPU 701執(zhí)行有關(guān)從輸入部分706 輸入的信息的各種處理。連接到輸入及輸出接口 705的存儲部分708例如由硬盤形成,并存儲由CPU 701 執(zhí)行的程序和各種類型的數(shù)據(jù)。而且,在存儲部分708中記錄語音識別和理解處理所需的各種類型的語音信息和詞典數(shù)據(jù)、用戶識別處理所需的用戶圖像數(shù)據(jù)等。通信部分709經(jīng)由諸如因特網(wǎng)或局域網(wǎng)的網(wǎng)絡(luò)與外部裝置通信。連接到輸入及輸出接口 705的驅(qū)動器710驅(qū)動諸如磁盤、光盤、磁光盤或半導(dǎo)體存儲器的可移除介質(zhì)711,從而獲得介質(zhì)中存儲的程序或數(shù)據(jù)。根據(jù)需要將獲得的程序或數(shù)據(jù)發(fā)送并存儲在存儲部分708中。到目前為止,已經(jīng)參考具體示例詳細(xì)描述了本公開。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,根據(jù)設(shè)計(jì)要求和其它因素可進(jìn)行各種變型、組合、子組合和替代,只要其在所附權(quán)利要求書或其等同物的范圍以內(nèi)即可。換言之,已經(jīng)基于示例性實(shí)施例進(jìn)行了描述,不限制性地解釋本公開。為了確定本公開的范圍,必須考慮權(quán)利要求書部分。另外,可通過硬件、軟件或包括兩者組合的配置來執(zhí)行本說明書中描述的一系列處理。當(dāng)通過軟件來執(zhí)行處理時,或者可以以將包括其中記錄處理序列的程序安裝到組合有專用硬件的計(jì)算機(jī)中的存儲器中的方法來執(zhí)行該處理,或者可以以將程序安裝在可執(zhí)行各種類型的處理的通用目的的計(jì)算機(jī)中的方法來執(zhí)行該處理。例如,可在記錄介質(zhì)中預(yù)先記錄程序。除了將程序從記錄介質(zhì)安裝到計(jì)算機(jī)的方法以外,還可能的是,使用這樣的方法在這樣的方法中,經(jīng)由諸如LAN(局域網(wǎng))或因特網(wǎng)的網(wǎng)絡(luò)接收程序,然后將其安裝在諸如內(nèi)置硬盤的記錄介質(zhì)中。而且,不僅可以以根據(jù)描述的時間序列的方式來執(zhí)行本說明書中描述的各種類型的處理,而且可以根據(jù)使處理器根據(jù)需要執(zhí)行的設(shè)備的處理能力、以并行的方式或獨(dú)自地執(zhí)行本說明書中描述的各種類型的處理。另外,本說明書中的系統(tǒng)是多個裝置的邏輯集合配置,并且每個配置裝置不限于在同一情況中。本公開包含與2010年8月沈日在日本專利局提交的日本優(yōu)先權(quán)專利申請 JP2010-189123中公開的主題有關(guān)的主題,其全部內(nèi)容通過參考合并于此。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,根據(jù)設(shè)計(jì)要求和其它因素可進(jìn)行各種變型、組合、子組合和替代,只要其在所附權(quán)利要求書或其等同物的范圍以內(nèi)即可。
權(quán)利要求
1.一種信息處理設(shè)備,包括預(yù)得分調(diào)整部分,其針對對應(yīng)于預(yù)先登記的多種類型的意圖信息中的每個意圖信息的、作為單元的意圖模型,基于作為觀測信息而獲得的上下文信息來計(jì)算預(yù)得分;多匹配部分,其確定對于基于用戶話語的輸入語音最合適的字群組,以及針對所述作為單元的意圖模型計(jì)算要給予所述字群組的聲學(xué)得分和語言得分;以及意圖確定部分,其通過比較根據(jù)所述作為單元的意圖模型的所述預(yù)得分、所述聲學(xué)得分和所述語言得分而計(jì)算的總得分,將與取得最高總得分的意圖模型對應(yīng)的意圖信息確定為與所述用戶話語對應(yīng)的意圖。
2.根據(jù)權(quán)利要求1所述的設(shè)備,還包括預(yù)得分存儲部分,在所述預(yù)得分存儲部分中登記有關(guān)每個上下文信息的對應(yīng)于上下文的預(yù)得分,其中,所述每個上下文信息對應(yīng)于多種不同類型的觀測信息,其中,所述觀測信息包括多種類型的觀測信息,以及所述預(yù)得分調(diào)整部分基于所述上下文信息來選擇登記在所述預(yù)得分存儲部分中的所述對應(yīng)于上下文的預(yù)得分,以及通過應(yīng)用所選擇的對應(yīng)于上下文的預(yù)得分來計(jì)算所述作為單元的意圖模型的預(yù)得分。
3.根據(jù)權(quán)利要求2所述的設(shè)備,其中,作為所述觀測信息的所述上下文信息包括信息(a)至(c)中的至少任一個,所述信息(a)至(c)包括(a)從輸入及輸出部分輸入的由用戶選擇的處理類別信息;(b)從圖像處理部分輸入的語音輸入個人識別信息;以及(c)從麥克風(fēng)確定部分輸入的語音輸入麥克風(fēng)識別信息,以及所述預(yù)得分調(diào)整部分基于所述上下文信息選擇所述預(yù)得分存儲部分中登記的所述對應(yīng)于上下文的預(yù)得分,以及通過應(yīng)用所選擇的對應(yīng)于上下文的預(yù)得分來計(jì)算所述作為單元的意圖模型的預(yù)得分。
4.根據(jù)權(quán)利要求3所述的設(shè)備,其中,用戶選擇的處理類別信息為所述用戶從執(zhí)行所述處理的所述信息處理設(shè)備的顯示部分上顯示的處理類別信息中選擇的信息,以及所述預(yù)得分調(diào)整部分選擇與所述用戶選擇的處理類別對應(yīng)的所述對應(yīng)于上下文的預(yù)得分,以及通過應(yīng)用所選擇的對應(yīng)于上下文的預(yù)得分來計(jì)算所述作為單元的意圖模型的預(yù)得分。
5.根據(jù)權(quán)利要求3所述的設(shè)備,其中,所述語音輸入個人識別信息為所述圖像處理部分基于由所述信息處理設(shè)備的相機(jī)捕獲的圖像而執(zhí)行的臉部識別處理的識別結(jié)果,以及所述預(yù)得分調(diào)整部分選擇與所識別的語音輸入個人對應(yīng)的所述對應(yīng)于上下文的預(yù)得分,以及通過應(yīng)用所選擇的對應(yīng)于上下文的預(yù)得分來計(jì)算所述作為單元的意圖模型的預(yù)得分。
6.根據(jù)權(quán)利要求3所述的設(shè)備,其中,所述語音輸入麥克風(fēng)識別信息為由所述信息處理設(shè)備的所述麥克風(fēng)確定部分獲得的、被確定為已經(jīng)從中輸入了所述語音的麥克風(fēng)的麥克風(fēng)信息,以及所述預(yù)得分調(diào)整部選擇與已經(jīng)從中輸入了所述語音的麥克風(fēng)對應(yīng)的所述對應(yīng)于上下文的預(yù)得分,以及通過應(yīng)用所選擇的對應(yīng)于上下文的預(yù)得分來計(jì)算所述作為單元的意圖模型的預(yù)得分。
7.根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述意圖確定部分通過應(yīng)用對應(yīng)于所述聲學(xué)得分、語言得分和預(yù)得分中的每個的預(yù)設(shè)權(quán)重,來計(jì)算所述作為單元的意圖模型的總得分。
8.根據(jù)權(quán)利要求1所述的設(shè)備,還包括預(yù)得分學(xué)習(xí)部分,其接收意圖確定部分的確定結(jié)果的輸入,以及通過基于輸入確定結(jié)果而執(zhí)行的學(xué)習(xí)處理,來更新所述預(yù)得分存儲部分中登記的所述對應(yīng)于上下文的預(yù)得分。
9.一種在信息處理設(shè)備中執(zhí)行的信息處理方法,該方法包括使預(yù)得分調(diào)整部分針對對應(yīng)于預(yù)先登記的多種意圖信息中的每個意圖信息的、作為單元的意圖模型,基于作為觀測信息而獲得的上下文信息來計(jì)算預(yù)得分;使多匹配部分確定對于基于用戶話語的輸入語音最合適的字群組,以及針對所述作為單元的意圖模型計(jì)算要給予所述字群組的聲學(xué)得分和語言得分;以及使意圖確定部分通過比較根據(jù)所述作為單元的意圖模型的所述預(yù)得分、所述聲學(xué)得分和所述語言得分而計(jì)算的總得分,將與取得最高總得分的意圖模型對應(yīng)的意圖信息確定為與所述用戶話語對應(yīng)的意圖。
10.一種使信息處理設(shè)備執(zhí)行信息處理的程序,包括使預(yù)得分調(diào)整部分針對對應(yīng)于預(yù)先登記的多種類型的意圖信息中的每個意圖信息的、 作為單元的意圖模型,基于作為觀測信息而獲得的上下文信息來計(jì)算預(yù)得分;使多匹配部分確定對于基于用戶話語的輸入語音最合適的字群組,以及針對所述作為單元的意圖模型計(jì)算要給予所述字群組的語言得分和聲學(xué)得分;以及使意圖確定部分通過比較根據(jù)所述作為單元的意圖模型的所述預(yù)得分、所述聲學(xué)得分和所述語言得分而計(jì)算的總得分,將與取得最高總得分的意圖模型對應(yīng)的意圖信息確定為與所述用戶話語對應(yīng)的意圖。
全文摘要
提供了一種信息處理設(shè)備、方法及程序。該信息處理設(shè)備包括預(yù)得分調(diào)整部分,其針對對應(yīng)于預(yù)先登記的多種類型的意圖信息中的每個意圖信息的、作為單元的意圖模型,基于作為觀測信息而獲得的上下文信息來計(jì)算預(yù)得分;多匹配部分,其確定對于基于用戶話語的輸入語音最合適的字群組,以及針對作為單元的意圖模型計(jì)算要給予字群組的聲學(xué)得分和語言得分;以及意圖確定部分,其通過比較根據(jù)意圖模型單元的預(yù)得分、聲學(xué)得分和語言得分而計(jì)算的總得分,將與取得最高總得分的意圖模型對應(yīng)的意圖信息確定為與用戶話語對應(yīng)的意圖。
文檔編號G10L15/18GK102385860SQ20111024282
公開日2012年3月21日 申請日期2011年8月19日 優(yōu)先權(quán)日2010年8月26日
發(fā)明者前田幸德, 南野活樹, 廣江厚夫, 朝川智 申請人:索尼公司