聲音識別服務(wù)器綜合裝置以及聲音識別服務(wù)器綜合方法
【專利摘要】提供以最佳形式對通用聲音識別服務(wù)器的聲音識別結(jié)果和專用聲音識別服務(wù)器的聲音識別結(jié)果進(jìn)行綜合從而最終錯(cuò)誤較少的聲音識別功能。使用包含在用戶辭典數(shù)擁中的語句來構(gòu)建專用的聲音識別服務(wù)器(108),并且使用這些數(shù)擁來事前評價(jià)通用的聲音識別服務(wù)器(106)的性能。以該評價(jià)結(jié)果為基礎(chǔ),對從專用以及通用的聲音識別服務(wù)器得到的識別結(jié)果,將采用哪個(gè)、對它們進(jìn)行怎樣的加權(quán)才能得到最佳的識別結(jié)果作為結(jié)果綜合用參數(shù)(118),以數(shù)據(jù)庫的形式保持。在識別執(zhí)行時(shí),通過將專用以及通用的聲音識別服務(wù)器進(jìn)行識別的識別結(jié)果與結(jié)果綜合用參數(shù)(118)進(jìn)行比較,由此來獲得最佳的識別結(jié)果。
【專利說明】聲音識別服務(wù)器綜合裝置以及聲音識別服務(wù)器綜合方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及將用于用戶使用聲音來進(jìn)行操作的終端裝置、和識別聲音數(shù)據(jù)并返回 其結(jié)果的多個(gè)聲音識別服務(wù)器相連,對由多個(gè)聲音識別服務(wù)器得到的識別結(jié)果進(jìn)行綜合從 而將最佳的聲音識別結(jié)果提供給用戶用的裝置以及方法。
【背景技術(shù)】
[0002] 用于通過用戶的聲音來進(jìn)行車載信息設(shè)備或便攜電話等的操作的聲音識別功能 被搭載在眾多的設(shè)備中。進(jìn)而,近年來,通過數(shù)據(jù)通信技術(shù)的發(fā)展,將聲音數(shù)據(jù)發(fā)送到服務(wù) 器并利用服務(wù)器的豐富的計(jì)算資源來進(jìn)行更高精度的聲音識別的方式不斷普及。此外,如 專利文獻(xiàn)1所示那樣,為了更有效地使用這樣的聲音識別服務(wù)器,還提出在個(gè)人用終端與 聲音識別服務(wù)器之間設(shè)置中繼服務(wù)器并在其中進(jìn)行附加的處理的方式。
[0003] 在先技術(shù)文獻(xiàn)
[0004] 專利文獻(xiàn)
[0005] 專利文獻(xiàn)1 :JP特開2008-242067號公報(bào)
[0006] 專利文獻(xiàn)2 :JP特開2002-116796號公報(bào)
[0007] 專利文獻(xiàn)3 :JP特開2010-224301號公報(bào)
【發(fā)明內(nèi)容】
[0008] 發(fā)明要解決的課題
[0009] 將聲音識別服務(wù)器作為通用的服務(wù)來運(yùn)營的例子增加,提供面向用戶所操縱的終 端的服務(wù)的主體、和運(yùn)營聲音識別服務(wù)器的主體不同的情況也變多。此外,在運(yùn)營主體相同 的情況下,也有分開進(jìn)行聲音識別服務(wù)器的開發(fā)和聲音識別應(yīng)用的開發(fā),它們相互未被最 優(yōu)化的情況。在這樣的狀況下,有時(shí)通用的聲音識別服務(wù)器總體表現(xiàn)出高的性能,但對特定 的語句卻未必表現(xiàn)出充分的性能。
[0010] 另一方面,在著眼于使用特定的應(yīng)用的特定的用戶的情況下,存在該用戶的熟人 的姓名或喜歡的音樂的樂曲名等雖然不普遍但重要度卻高的語句。為了識別這樣的語句, 期望設(shè)置專用的聲音識別服務(wù)器,但在專用聲音識別服務(wù)器的開發(fā)中不能投入足夠的成本 的情況較多,在針對一般的語句的性能中要遜于通用聲音識別服務(wù)器。如此,通用聲音識別 服務(wù)器和專用聲音識別服務(wù)器因語句不同在識別上有擅長和不擅長,聲音識別性能不同。 因此,雖然尋求根據(jù)用戶發(fā)出的語句來區(qū)分使用它們的方法,但只要所謂聲音識別是"針對 不知道內(nèi)容的發(fā)聲來估計(jì)內(nèi)容的"任務(wù),則在原理上就不能實(shí)現(xiàn)事前獲知發(fā)聲內(nèi)容來區(qū)分 使用服務(wù)器。
[0011] 本發(fā)明目的在于,提供以最佳形式對通用聲音識別服務(wù)器的聲音識別結(jié)果和專用 聲音識別服務(wù)器的聲音識別結(jié)果進(jìn)行綜合從而最終錯(cuò)誤較少的聲音識別功能。
[0012] 用于解決課題的手段
[0013] 在本發(fā)明中,預(yù)先獲得包含在用戶所持有的終端裝置中的特定單詞的列表,以這 些單詞的數(shù)據(jù)為基礎(chǔ)來構(gòu)建專用的聲音識別服務(wù)器。此外,使用這些數(shù)據(jù)來事前評價(jià)通用 聲音識別服務(wù)器的性能。以該評價(jià)結(jié)果為基礎(chǔ),以數(shù)據(jù)庫的形式保持在從專用以及通用的 聲音識別服務(wù)器得到的識別結(jié)果之中采用哪個(gè)、對它們進(jìn)行怎樣的加權(quán)才能得到最佳的識 別結(jié)果。在用戶實(shí)際使用聲音識別功能時(shí),在由專用以及通用的聲音識別服務(wù)器識別輸入 聲音后,將由此得到的結(jié)果與先前所述的數(shù)據(jù)庫的內(nèi)容進(jìn)行比較,由此得到最佳的聲音識 別結(jié)果。此外,通過作為事前評價(jià)的基準(zhǔn),除了使用聲音識別的正確度以外還使用響應(yīng)速 度,能盡可能早地得到盡可能正確的聲音識別結(jié)果。
[0014] 若舉出本發(fā)明的聲音識別服務(wù)器綜合裝置的一例,則有對用于用戶使用聲音來進(jìn) 行操作的終端裝置、與識別聲音數(shù)據(jù)并返回其結(jié)果的聲音識別服務(wù)器之間進(jìn)行中繼的裝 置,其具備:基于用戶所登記的語句或用戶經(jīng)常使用的語句的列表來學(xué)習(xí)并保存識別結(jié)果 綜合用參數(shù)的綜合方式學(xué)習(xí)部;從所述終端裝置接收用戶為了聲音識別而刻意發(fā)出的聲音 的數(shù)據(jù)的單元;將所述接收到的聲音數(shù)據(jù)發(fā)送給通用聲音識別服務(wù)器以及專用聲音識別服 務(wù)器的單元;接收所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器對所述聲音數(shù)據(jù)進(jìn)行 識別的識別結(jié)果的單元;將所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器進(jìn)行識別的 識別結(jié)果與所述保存的識別結(jié)果綜合用參數(shù)進(jìn)行比較來選擇最佳的識別結(jié)果的識別結(jié)果 綜合部;和將所述選擇的識別結(jié)果發(fā)送給所述終端裝置的單元。
[0015] 在本發(fā)明的聲音識別服務(wù)器綜合裝置中,可以還具備:從所述終端裝置接收用戶 所登記的語句或用戶經(jīng)常使用的語句的列表的單元;以所述接收到的語句為基礎(chǔ)來生成合 成聲音的聲音合成部;將所述生成的合成聲音發(fā)送給所述通用聲音識別服務(wù)器以及專用聲 音識別服務(wù)器的單元;和接收所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器對所述合 成聲音進(jìn)行識別的識別結(jié)果的單元,所述綜合方式學(xué)習(xí)部將成為所述合成聲音的基礎(chǔ)的語 句和所述識別結(jié)果一起進(jìn)行解析,學(xué)習(xí)并保存識別結(jié)果綜合用參數(shù)。
[0016] 此外,在本發(fā)明的聲音識別服務(wù)器綜合裝置中,可以還具備:從所述終端裝置接收 用戶所登記的語句或用戶經(jīng)常使用的語句的列表的單元;從所述通用聲音識別服務(wù)器接收 識別用語句列表的單元;和將所述識別用語句列表與從所述終端裝置接收到的語句列表進(jìn) 行比較來估計(jì)類似度的語句比較/類似度估計(jì)部,所述綜合方式學(xué)習(xí)部將所述估計(jì)結(jié)果作 為識別結(jié)果綜合用參數(shù)來保存。
[0017] 若舉出本發(fā)明的聲音識別服務(wù)器綜合方法的一例,則有由如下步驟構(gòu)成的方法, 上述步驟為:基于用戶所登記的語句或用戶經(jīng)常使用的語句的列表來學(xué)習(xí)并保存識別結(jié)果 綜合用參數(shù)的步驟;將用戶為了聲音識別而刻意發(fā)出的聲音的數(shù)據(jù)發(fā)送到通用聲音識別服 務(wù)器以及專用聲音識別服務(wù)器的步驟;接收所述通用聲音識別服務(wù)器以及專用聲音識別服 務(wù)器對所述聲音數(shù)據(jù)進(jìn)行識別的識別結(jié)果的步驟;將通用聲音識別服務(wù)器的識別結(jié)果以及 專用聲音識別服務(wù)器的識別結(jié)果與所述識別結(jié)果綜合用參數(shù)進(jìn)行比較來選擇最佳的聲音 識別結(jié)果的步驟。
[0018] 發(fā)明效果
[0019] 根據(jù)本發(fā)明,關(guān)于一般的語句,重視通用聲音識別服務(wù)器的識別結(jié)果,關(guān)于用戶固 有的語句,重視專用聲音識別服務(wù)器的結(jié)果等,以最佳的形式對各個(gè)輸入進(jìn)行識別結(jié)果的 綜合,從而最終能向用戶提供錯(cuò)誤較少的聲音識別功能。此外,能實(shí)現(xiàn)不僅錯(cuò)誤較少,連在 響應(yīng)速度的方面上便利性也高的系統(tǒng)。
【專利附圖】
【附圖說明】
[0020] 圖1是本發(fā)明的實(shí)施例1的聲音識別服務(wù)器綜合裝置的構(gòu)成圖。
[0021] 圖2是表示使用了本發(fā)明的實(shí)施例1的聲音合成的結(jié)果綜合用參數(shù)估計(jì)的處理的 圖。
[0022] 圖3是表示使用了本發(fā)明的單一通用聲音識別服務(wù)器的結(jié)果綜合用參數(shù)的一例 的圖。
[0023] 圖4是表示使用了本發(fā)明的多個(gè)通用聲音識別服務(wù)器的結(jié)果綜合用參數(shù)的一例 的圖。
[0024] 圖5是表示本發(fā)明的實(shí)施例1的多個(gè)服務(wù)器的識別結(jié)果的綜合方法的一例的圖。
[0025] 圖6是表示使用了本發(fā)明的多個(gè)通用聲音識別服務(wù)器的識別結(jié)果可靠度的結(jié)果 綜合用參數(shù)的一例的圖。
[0026] 圖7是表示使用了本發(fā)明的多個(gè)通用聲音識別服務(wù)器的識別結(jié)果可靠度和誤識 別結(jié)果的結(jié)果綜合用參數(shù)的一例的圖。
[0027] 圖8是表示利用了本發(fā)明的同音不同寫法的變換的識別結(jié)果的綜合方法的一例 的圖。
[0028] 圖9是表示用于實(shí)現(xiàn)本發(fā)明的用戶終端的構(gòu)成例的圖。
[0029] 圖10是表示本發(fā)明中的用戶辭典的作成方法的一例的圖。
[0030] 圖11是表不本發(fā)明中的聲音合成部的構(gòu)成的一例的圖。
[0031] 圖12是表示本發(fā)明的考慮了響應(yīng)時(shí)間的結(jié)果綜合用參數(shù)的一例的圖。
[0032] 圖13是本發(fā)明的實(shí)施例2的聲音識別服務(wù)器綜合裝置的構(gòu)成圖。
[0033] 圖14是本發(fā)明的實(shí)施例3的聲音識別服務(wù)器綜合裝置的構(gòu)成圖。
[0034] 圖15是表示使用了本發(fā)明的實(shí)施例3的識別用語句列表的結(jié)果綜合用參數(shù)估計(jì) 的處理的圖。
[0035] 圖16是本發(fā)明的實(shí)施例4的聲音識別服務(wù)器裝置的構(gòu)成圖。
[0036] 圖17是本發(fā)明的實(shí)施例5的聲音識別服務(wù)器裝置的構(gòu)成圖。
【具體實(shí)施方式】
[0037] 以下,使用附圖來說明本發(fā)明的實(shí)施例。另外,在用以說明用于實(shí)施發(fā)明的形態(tài)的 全部圖中,對具有相同功能的要素標(biāo)注相同名稱、標(biāo)號,并省略其重復(fù)說明。
[0038] [實(shí)施例1]
[0039] 圖1是表示基于本發(fā)明的實(shí)施例1的聲音識別服務(wù)器綜合裝置的構(gòu)成例的圖。聲 音識別功能使用用戶終端102、中繼服務(wù)器104、通用聲音識別服務(wù)器組106、專用聲音識別 服務(wù)器108來提供。另外,通用聲音識別服務(wù)器組106也可以是單一的通用聲音識別服務(wù) 器。
[0040] 用戶終端102是用戶個(gè)人所持有的終端裝置,除了進(jìn)行輸入聲音數(shù)據(jù)的獲取以及 基于聲音識別結(jié)果的服務(wù)的提供以外,還保持地址簿或樂曲名列表等的用戶所固有的語句 列表。以下,將這些用戶所固有的語句列表稱作"用戶辭典"。在用戶辭典中保持了用戶所 登記的語句或用戶經(jīng)常使用的語句的列表。
[0041] 通用聲音識別服務(wù)器組106是并未假定僅通過由本發(fā)明實(shí)現(xiàn)的服務(wù)來使用的、1 臺以上的聲音識別服務(wù)器。一般內(nèi)置大規(guī)模的語句列表,針對各種語言的識別性能高,但另 一方面對包含在用戶辭典中的一部分語句則有不能正確識別的可能性。
[0042] 專用聲音識別服務(wù)器108是專門化為由本發(fā)明實(shí)現(xiàn)的服務(wù)的聲音識別服務(wù)器,設(shè) 計(jì)為識別包含在用戶辭典中的語句的全部或大部分。專用聲音識別服務(wù)器108被設(shè)計(jì)為在 輸入了未包含在用戶辭典中的語句的情況下輸出"無識別結(jié)果"這樣的結(jié)果。專用聲音識 別服務(wù)器并不限于構(gòu)成為服務(wù)器,也可以是專用聲音識別裝置,此外也可以如實(shí)施例2或 實(shí)施例5那樣,內(nèi)置于用戶終端或中繼服務(wù)器中。
[0043] 中繼服務(wù)器104相當(dāng)于本發(fā)明的"聲音識別服務(wù)器綜合裝置",將用戶終端102和 聲音識別服務(wù)器106、108相連,進(jìn)行聲音識別結(jié)果的綜合等。與用戶終端102的數(shù)據(jù)交換 經(jīng)由終端裝置通信部110來進(jìn)行。此外,與聲音識別服務(wù)器106、108的數(shù)據(jù)交換經(jīng)由識別 服務(wù)器通信部112來進(jìn)行。中繼服務(wù)器104由終端裝置通信部110、聲音合成部114、綜合 方式學(xué)習(xí)部116、信號處理部120、識別結(jié)果綜合部122、識別服務(wù)器通信部112等構(gòu)成。
[0044] 對中繼服務(wù)器104的動作進(jìn)行說明。首先,在用戶將用戶終端102設(shè)置為能通信 的狀態(tài)時(shí),用戶辭典124的數(shù)據(jù)經(jīng)由終端裝置通信部110被發(fā)送。該數(shù)據(jù)被直接送往識別 服務(wù)器通信部112,進(jìn)而被送往專用聲音識別服務(wù)器108。在專用聲音識別服務(wù)器108中, 基于被送來的用戶辭典數(shù)據(jù)來進(jìn)行調(diào)諧,以使得能正確識別包含于其中的語句。另一方面, 由終端裝置通信部110接收到的用戶辭典數(shù)據(jù)也被送往聲音合成部114。在此,以作為字符 串而被送來的用戶辭典數(shù)據(jù)為基礎(chǔ)來制作合成聲音數(shù)據(jù)。針對一個(gè)語句的合成聲音數(shù)據(jù)既 可以是一個(gè),也可以是音質(zhì)不同的多個(gè)。作成的合成聲音數(shù)據(jù)經(jīng)由識別服務(wù)器通信部112 被送往通用聲音識別服務(wù)器組106以及專用聲音識別服務(wù)器108。在針對它們的識別結(jié)果 從各服務(wù)器返回時(shí),識別服務(wù)器通信部112將其接收,并送到綜合方式學(xué)習(xí)部116。在綜合 方式學(xué)習(xí)部116中,成為合成聲音的基礎(chǔ)的用戶辭典數(shù)據(jù)和識別結(jié)果一起解析,學(xué)習(xí)用于 識別結(jié)果綜合的參數(shù)。得到的參數(shù)作為結(jié)果綜合用參數(shù)118來保存。在該時(shí)間點(diǎn)結(jié)束使用 了本發(fā)明的系統(tǒng)的事前學(xué)習(xí)處理。
[0045] 在用戶實(shí)際使用聲音接口時(shí),通過終端裝置通信部110接收由用戶終端102獲取 到的輸入聲音數(shù)據(jù)。接收到的數(shù)據(jù)被送往信號處理部120,被施予必要的處理。在此,所謂 必要的處理例如是指從包含噪聲的輸入聲音中去除噪聲等,但并不一定必須,也可以不進(jìn) 行任何處理。從信號處理部120輸出的數(shù)據(jù)經(jīng)過識別服務(wù)器通信部112被送往通用聲音識 別服務(wù)器組106以及專用聲音識別服務(wù)器108。從這些服務(wù)器返回的識別結(jié)果經(jīng)過識別服 務(wù)器通信部112被送往識別結(jié)果綜合部122。在識別結(jié)果綜合部122中,比較多個(gè)識別結(jié) 果、和包含在結(jié)果綜合用參數(shù)118中的參數(shù),來選擇最佳的識別結(jié)果。所選擇的識別結(jié)果經(jīng) 過終端裝置通信部110被送往用戶終端102。在用戶終端102中,以該結(jié)果為基礎(chǔ)來提供設(shè) 定導(dǎo)航功能的目的地、打電話、再現(xiàn)樂曲等的服務(wù)。
[0046] 圖2是表示在圖1所示的構(gòu)成中直至使用用戶辭典數(shù)據(jù)來作成結(jié)果綜合用參數(shù)為 止的處理的次序的圖。首先,用戶辭典數(shù)據(jù)被直接送到專用聲音識別服務(wù)器。在專用聲音 識別服務(wù)器中,對聲音識別引擎進(jìn)行調(diào)諧,以便將送來的語句作為識別對象。因此,在發(fā)出 未包含在用戶辭典中的語句聲音的數(shù)據(jù)被送來的情況下,專用聲音識別服務(wù)器要么返回錯(cuò) 誤的結(jié)果,或者要么返回?zé)o法識別這樣的結(jié)果。另一方面,用戶辭典數(shù)據(jù)也被送往聲音合成 部,由此作成合成聲音數(shù)據(jù)。通常針對一個(gè)語句制作一個(gè)合成聲音,但在聲音合成部具有能 選擇說話者、語速、聲音的高低等這樣的功能的情況下,若使它們發(fā)生變化而針對相同的語 句作成多個(gè)合成聲音數(shù)據(jù),則能更加提高在后級進(jìn)行的綜合方式學(xué)習(xí)的性能。
[0047] 如此得到的合成聲音數(shù)據(jù)被送往各通用聲音識別服務(wù)器以及專用聲音識別服務(wù) 器。從這些服務(wù)器返回識別結(jié)果。此外,也有不僅返回識別結(jié)果,還一起返回附隨在其中的 可靠度得分的情況。以它們?yōu)榛A(chǔ),在綜合方式學(xué)習(xí)部學(xué)習(xí)綜合方式,將其結(jié)果保存在結(jié)果 綜合用參數(shù)中。
[0048] 圖3是表示結(jié)果綜合用參數(shù)的最簡單的構(gòu)成的示例的圖。在該示例中,假定通用 聲音識別服務(wù)器僅存在1臺,在該服務(wù)器中,用"〇"和" X "僅保持是否正確識別用戶辭典 的各語句。即,該圖表征了雖然在通用聲音識別服務(wù)器正確地識別出了"鈴木一郎"、"山田 二郎"這樣的語句,但除此之外卻未正確地識別出。圖4是使用3臺通用聲音識別服務(wù)器進(jìn) 行了同樣的學(xué)習(xí)時(shí)的示例。
[0049] 在圖5中示出使用圖3、圖4所示的結(jié)果來實(shí)際進(jìn)行識別時(shí)的處理的次序。輸入聲 音數(shù)據(jù)首先在信號處理部被進(jìn)行事前處理。作為信號處理部中的處理的代表性示例,能舉 出專利文獻(xiàn)1所示那樣的噪聲抑制處理。信號處理部中的處理的結(jié)果一般是針對一個(gè)輸入 聲音數(shù)據(jù)得到一個(gè)聲音數(shù)據(jù),但也有能改變設(shè)定來得到多個(gè)聲音數(shù)據(jù)的情況。在這樣的情 況下,反復(fù)執(zhí)行聲音數(shù)據(jù)的數(shù)量次的以下所述的處理。此外,在認(rèn)為不需要信號處理部中的 處理的情況下,將輸入聲音數(shù)據(jù)直接作為信號處理部的輸出數(shù)據(jù)。
[0050] 信號處理部的輸出數(shù)據(jù)被送往通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器。它 們的結(jié)果全都被送往識別結(jié)果綜合部。在識別結(jié)果綜合部中,首先檢查專用聲音識別服務(wù) 器的識別結(jié)果。在專用識別服務(wù)器的識別結(jié)果為"無識別結(jié)果"的情況下,僅根據(jù)通用聲音 識別服務(wù)器的識別結(jié)果來決定最終的識別結(jié)果。即,在通用聲音識別服務(wù)器僅有1臺的情 況下,直接采用其結(jié)果。在有多臺的情況下,在這些識別結(jié)果之間取多數(shù)表決。在取多數(shù)表 決時(shí),若是各識別服務(wù)器賦予了可靠度得分的情況,則也能設(shè)為用其值進(jìn)行了加權(quán)的多數(shù) 表決。此外,還能事前估計(jì)各識別服務(wù)器的性能來設(shè)為加權(quán)的系數(shù)。關(guān)于這樣的針對一般 語句的多個(gè)聲音識別服務(wù)器的識別結(jié)果的綜合,能使用專利文獻(xiàn)2所示那樣的公知技術(shù)。
[0051] 另一方面,在作為專用聲音識別服務(wù)器的識別結(jié)果而得到包含在用戶辭典數(shù)據(jù)中 的語句的情況下,參考圖3或圖4所示那樣的結(jié)果綜合用參數(shù)。例如,在圖3的示例中,在 專用聲音識別服務(wù)器的識別結(jié)果為"日立太郎"的情況下,若觀看結(jié)果綜合用參數(shù)的相應(yīng)的 行,則由于獲知該語句在通用聲音識別服務(wù)器中應(yīng)當(dāng)不能識別,因此直接采用專用聲音識 別服務(wù)器的結(jié)果。另一方面,在專用聲音識別服務(wù)器的識別結(jié)果為"鈴木一郎"的情況下, 若觀看結(jié)果綜合用參數(shù)的相應(yīng)的行,則獲知該語句在專用聲音識別服務(wù)器中也能識別。為 此,接下來檢查通用聲音識別服務(wù)器的識別結(jié)果。在通用聲音識別服務(wù)器的識別結(jié)果也是 "鈴木一郎"的情況下,直接將"鈴木一郎"作為最終的識別結(jié)果即可,但在否定的情況下,優(yōu) 先采用一般認(rèn)為性能高的通用聲音識別服務(wù)器的結(jié)果,或者采用通用聲音識別服務(wù)器和專 用聲音識別服務(wù)器的識別結(jié)果之中可靠度得分高的一方作為最終識別結(jié)果。由此,在與"鈴 木一郎"相近的發(fā)音的語言被專用聲音識別服務(wù)器誤識別的情況下,也能基于通用聲音識 別服務(wù)器的識別結(jié)果將其丟棄。在圖4的示例中也是同樣的,關(guān)于"日立太郎",無條件采用 專用聲音識別服務(wù)器的結(jié)果。關(guān)于"鈴木一郎",由于是3臺通用聲音識別服務(wù)器全都能識 別的語句,因此通過這些識別結(jié)果中的多數(shù)表決、或者通過在這些識別結(jié)果的全部還加入 了專用聲音識別服務(wù)器的多數(shù)表決,由此來決定最終識別結(jié)果。此外,在專用聲音識別服務(wù) 器的識別結(jié)果為"山田二郎"的情況下,由于有能正確將其識別的可能性的通用聲音識別服 務(wù)器僅有1號,因此在該服務(wù)器和專用聲音識別服務(wù)器之間,通過進(jìn)行與圖3的示例相同的 處理,由此來得到最終識別結(jié)果。
[0052] 圖6是與圖3和圖4不同的另一個(gè)結(jié)果綜合用參數(shù)的實(shí)現(xiàn)例。在此,在某語句能 在各通用聲音識別服務(wù)器識別的情況下,將正確識別該語句的概率置換為權(quán)重的數(shù)值來保 持。在此,正確識別的概率例如能對"鈴木一郎"這樣的語句進(jìn)行基于各式各樣改變聲音合 成用參數(shù)而制作的合成聲音的識別,根據(jù)對這些合成聲音的識別結(jié)果之中有幾個(gè)是正確的 來進(jìn)行估計(jì)。此外,在成為通用聲音識別服務(wù)器返回多個(gè)識別結(jié)果候選的做法的情況下,還 能使用正解單詞的平均順位或平均可靠度得分等。通過適當(dāng)?shù)姆蔷€性變換將這些值變換成 權(quán)重值的結(jié)果保持在結(jié)果綜合用參數(shù)中。在該示例中,在專用聲音識別服務(wù)器的識別結(jié)果 為"鈴木一郎"、通用服務(wù)器1的結(jié)果為"佐佐木一郎"、通用服務(wù)器2和3的結(jié)果為"鈴木 一郎"的情況下,"佐佐木一郎"的權(quán)重為3. 0,"鈴木一郎"的權(quán)重成為1. 4與1. 2之和、即 2. 6,前者更大,因此將"佐佐木一郎"作為最終識別結(jié)果。
[0053] 圖7是與圖3、4、6不同的另一個(gè)結(jié)果綜合用參數(shù)的實(shí)現(xiàn)例。在此,用通用聲音識別 服務(wù)器識別包含在用戶辭典數(shù)據(jù)中的語句,在未正確識別的情況下也將此時(shí)得到的識別結(jié) 果作為結(jié)果綜合用參數(shù)來保存。對各個(gè)服務(wù)器的權(quán)重進(jìn)行設(shè)定的情形與圖6的示例相同。 在進(jìn)行多次實(shí)驗(yàn)時(shí),也可以僅保存出現(xiàn)最多的結(jié)果,或保存多個(gè)識別結(jié)果。另外,也可以無 論實(shí)驗(yàn)的次數(shù)多少,都也一并保存2位數(shù)以下的識別結(jié)果。在識別執(zhí)行時(shí),與到此為止的示 例相同,基于專用聲音識別服務(wù)器的識別結(jié)果來參考結(jié)果綜合用參數(shù)。此時(shí),檢查通用聲音 識別服務(wù)器的識別結(jié)果是否與保存在結(jié)果綜合用參數(shù)中的內(nèi)容一致。例如,在專用聲音識 別服務(wù)器的識別結(jié)果為"日立太郎"、通用服務(wù)器1的結(jié)果為"日立市"、通用服務(wù)器2的結(jié) 果為"二十歲"、通用服務(wù)器3的結(jié)果為"日立"的情況下,在將通用服務(wù)器1的結(jié)果變換為 "日立太郎"的基礎(chǔ)上進(jìn)行各識別結(jié)果中的多數(shù)表決,最終選擇"日立太郎"。
[0054] 圖8是表示利用了同音不同寫法的檢測的聲音識別結(jié)果綜合方式的示例的圖。如 圖所示那樣,在專用聲音識別服務(wù)器的識別結(jié)果為"左藤一郎"的情況下,將其與通用聲音 識別服務(wù)器的各識別結(jié)果進(jìn)行比較,檢查是否包含同音不同寫法。在此,對于根據(jù)寫法來估 計(jì)發(fā)音,若是日語,則將各個(gè)漢字的讀法作為數(shù)據(jù)來保持,通過連結(jié)構(gòu)成該語句的漢字的讀 法來獲得發(fā)音寫法。若是英語,則保持對部分拼法賦予讀法的規(guī)則,通過依次運(yùn)用這些規(guī)則 來獲得發(fā)音寫法。在是其它語言的情況下,周知也一般能通過被稱作Grapheme to Phoneme 的技術(shù)來獲得發(fā)音寫法。此外,還有在用戶辭典數(shù)據(jù)之中如漢字寫法和假名寫法那樣包含 發(fā)音信息的情況,這種情況下將其靈活運(yùn)用。通過上述的檢查,在包含同音不同寫法的情況 下,將該識別結(jié)果的寫法變換成專用聲音識別服務(wù)器的識別結(jié)果的寫法來使用。在圖的示 例中,由于通用聲音識別服務(wù)器1的識別結(jié)果"佐藤一郎"與專用聲音識別服務(wù)器的識別結(jié) 果為同音,因此將其變換為"左藤一郎"。其結(jié)果,3臺通用聲音識別服務(wù)器進(jìn)行的多數(shù)表決 的結(jié)果成為"左藤一郎",采用其作為最終結(jié)果。
[0055] 圖9是以提供汽車內(nèi)的導(dǎo)航功能或免提通話功能等的情況為例來表示了用戶終 端的具體的實(shí)現(xiàn)形態(tài)的示例的圖。在圖9(a)中,將麥克風(fēng)裝置904、應(yīng)用906、通信模塊908 等全部功能安裝在汽車導(dǎo)航裝置902內(nèi)。在圖9(b)中,將汽車導(dǎo)航裝置902與智能手機(jī) 910連結(jié),麥克風(fēng)裝置904使用汽車導(dǎo)航裝置902的,通信部908使用智能手機(jī)910的。應(yīng) 用912、914根據(jù)各自的功能,分散配置在汽車導(dǎo)航裝置內(nèi)和智能手機(jī)內(nèi),或者僅配置在任 一單方。在圖9(c)中,在智能手機(jī)910內(nèi)安裝全部功能。
[0056] 圖10是表示了構(gòu)成本發(fā)明的用戶辭典124的作成方法的示例的圖。例如,在用戶 終端102內(nèi)存在地址簿1002的情況下,將包含于其中的人名登記到用戶辭典。同樣地,在 存在音樂播放器的樂曲列表1004的情況下,將包含于其中的樂曲名和藝術(shù)家名登記到用 戶辭典。此外,還能將作為Web瀏覽器的書簽1006而被登記的頁面標(biāo)題登記到用戶辭典。 除此之外,還能采用解析蓄積于用戶終端內(nèi)的郵件1008或短消息等的數(shù)據(jù),將頻繁出現(xiàn)于 其中的語句登記到用戶辭典這樣的方式。關(guān)于這些數(shù)據(jù),還能采用如下方式:在用戶終端首 次與本發(fā)明的系統(tǒng)連接時(shí),將包含在用戶終端中的全部用戶辭典數(shù)據(jù)發(fā)送到系統(tǒng),還在向 地址簿或樂曲列表等追加新條目時(shí),僅將新追加數(shù)據(jù)追加發(fā)送到系統(tǒng),促使結(jié)果綜合用參 數(shù)的更新。這時(shí),不僅需要更新結(jié)果綜合用參數(shù),還需要同時(shí)更新專用聲音識別部的對照用 辭典。
[0057] 圖11是表示變更一般的聲音合成部的構(gòu)成,在本發(fā)明中專門化后的特殊構(gòu)成的 一例的圖。一般而言,聲音合成部114由合成聲音作成部1102、和聲音片段數(shù)據(jù)1106? 1110構(gòu)成。在此,所謂片段數(shù)據(jù),是在將數(shù)據(jù)直接接在一起來制作合成聲音的方式中所用的 數(shù)據(jù)的名稱,但由于在取代直接接在一起而采用通過統(tǒng)計(jì)處理和信號處理來合成波形的方 式的情況下,也對各個(gè)音素、音節(jié)等的處理單位使用類似的數(shù)據(jù)集合,因此能運(yùn)用以下所述 的方式。在合成聲音作成部1102中,將聲音片段數(shù)據(jù)接在一起,若有需要,就進(jìn)行合適的信 號處理,作成標(biāo)準(zhǔn)合成聲音。但是,在本發(fā)明中,由于獲知各通用聲音識別服務(wù)器組對用戶 終端的所有者即特定用戶的聲音有何種反應(yīng)非常重要,因此期望在聲音合成部作成的合成 聲音也與用戶的聲音相似。為此,用戶每當(dāng)使用聲音識別功能,或者每當(dāng)使用除此以外的聲 音功能或聲音通話時(shí),將該聲音作為用戶聲音數(shù)據(jù)1112來蓄積,由聲音變換部1104活用用 戶聲音數(shù)據(jù)1112來進(jìn)行從標(biāo)準(zhǔn)合成聲音到適應(yīng)用戶聲音的變換。通過將如此變換的聲音 輸入到通用聲音識別服務(wù)器組,從而能進(jìn)行精度更高的性能預(yù)測,能期待結(jié)果綜合用參數(shù) 的值也成為合適的值。
[0058] 圖12是表示除了聲音識別的正確度以外還將響應(yīng)速度作為評價(jià)基準(zhǔn)的情況的結(jié) 果綜合用參數(shù)的示例的圖。在該示例中,執(zhí)行使用了與包含在用戶辭典數(shù)據(jù)中的各語句對 應(yīng)的合成聲音的識別,將該處理所花費(fèi)的平均時(shí)間作為參數(shù)來保持。在該示例中,在專用聲 音識別服務(wù)器的識別結(jié)果為"鈴木一郎"的情況下,期待在〇. 5秒內(nèi)得到通用服務(wù)器2的識 別結(jié)果,但為了得到通用服務(wù)器1的識別結(jié)果不得不等待1. 5秒。在該響應(yīng)時(shí)間超過在應(yīng) 用中假定的上限值的情況下,在得到通用服務(wù)器2的結(jié)果的時(shí)間點(diǎn)進(jìn)行結(jié)果綜合處理。由 此,若假定在結(jié)果綜合處理中幾乎不花時(shí)間,則能在約〇. 5秒的響應(yīng)時(shí)間內(nèi)得到最終識別 結(jié)果,從而能提升用戶的便利性。
[0059] [實(shí)施例2]
[0060] 圖13是表示了使用組入用戶終端內(nèi)的專用聲音識別部108來實(shí)現(xiàn)與圖1所示的 示例同等的功能那樣的示例的構(gòu)成的圖。在此,用戶終端102不經(jīng)由中繼服務(wù)器104地使 用存在于內(nèi)部的專用聲音識別部108來進(jìn)行包含在用戶辭典124中的語句的識別。使用用 戶辭典數(shù)據(jù)來事前進(jìn)行通用聲音識別服務(wù)器組106的性能評價(jià)的方法與圖1的情況所示的 方法相同。在識別執(zhí)行時(shí),經(jīng)由中繼服務(wù)器104來執(zhí)行通用聲音識別服務(wù)器106所進(jìn)行的 識別,同時(shí)也由用戶終端內(nèi)的專用聲音識別部108執(zhí)行識別。這樣的并用終端內(nèi)的聲音識 別部、和經(jīng)由通信裝置而連接的聲音識別部的方式雖然在專利文獻(xiàn)3中也有示出,但專利 文獻(xiàn)3記載的發(fā)明著眼于是否建立通信路徑這一點(diǎn)來進(jìn)行結(jié)果的取舍選擇,與此相對,在 本發(fā)明中,使用基于事前進(jìn)行的聲音識別的結(jié)果而求得的結(jié)果綜合用參數(shù),這一點(diǎn)不同。
[0061] [實(shí)施例3]
[0062] 圖14是表示基于本發(fā)明的聲音識別服務(wù)器綜合裝置的另一個(gè)構(gòu)成例的圖。在此, 作為通用聲音識別服務(wù)器組106的功能,假定能獲得在其中使用的識別用語句列表的情 況。在這樣的條件的基礎(chǔ)上,從用戶終端102送到中繼服務(wù)器104的用戶辭典數(shù)據(jù)被送往 語句比較/類似度估計(jì)部126。在該部中,比較從通用聲音識別服務(wù)器組106獲得的識別用 語句列表和用戶辭典數(shù)據(jù),判定在各個(gè)服務(wù)器中是否能正確識別出包含在用戶辭典124中 的各語句。判定結(jié)果被送往綜合方式學(xué)習(xí)部116,將整理為參數(shù)的結(jié)果保持在結(jié)果綜合用參 數(shù)118中。另一方面,將用戶辭典數(shù)據(jù)直接送往專用聲音識別服務(wù)器108,由專用聲音識別 服務(wù)器進(jìn)行調(diào)諧這一點(diǎn)與圖1所示的示例相同。
[0063] 若在這樣的準(zhǔn)備完畢的狀態(tài)下從用戶終端102送來輸入聲音數(shù)據(jù),則與圖1所示 的示例相同,該數(shù)據(jù)經(jīng)由信號處理部120被送往通用聲音識別服務(wù)器106以及專用聲音識 別服務(wù)器108。從這些服務(wù)器返回的識別結(jié)果被送往識別結(jié)果綜合部122,由此通過與結(jié)果 綜合用參數(shù)118的比較來選擇最佳的識別結(jié)果。在所選擇的識別結(jié)果被發(fā)送到用戶終端 102之后,與圖1所示的示例相同。
[0064] 圖15是表示在圖14所示的構(gòu)成中直至使用用戶辭典數(shù)據(jù)來作成結(jié)果綜合用參數(shù) 為止的處理的次序的圖。在該示例中,既不作成合成聲音,也不試著使用合成聲音來執(zhí)行聲 音識別,僅從各通用聲音識別服務(wù)器獲取識別用語句列表。比較這些列表、和包含在用戶辭 典數(shù)據(jù)中的語句,將用戶辭典數(shù)據(jù)的各語句包含在哪個(gè)通用聲音識別服務(wù)器的語句列表中 進(jìn)行數(shù)據(jù)化。在此,由于只有包含在識別用語句列表中的(〇)、和未包含的(X)的任一者, 因此將得到的結(jié)果匯總的結(jié)果綜合用參數(shù)變得與圖3或圖4相同。因此,進(jìn)行實(shí)際識別時(shí) 的使用方式也與前述的示例相同。此外,在從各通用聲音識別服務(wù)器不僅能獲得語句列表 還能獲得表征這些語句的識別容易度的語言模型時(shí),也能作成圖6那樣的加權(quán)的結(jié)果綜合 用參數(shù)。例如,在使用代表性的語言模型的N-Gram語言模型的情況下,能考慮將uni-Gram 的值設(shè)為該單詞的識別容易度、或?qū)i-Gram、tri-Gram的最大值設(shè)為該單詞的識別容易 度等的方式。
[0065] [實(shí)施例4]
[0066] 圖16是表示了通過將與用戶之間的輸入輸出功能和聲音識別服務(wù)器綜合功能組 入單一的裝置中的裝置來實(shí)現(xiàn)與圖1所示的示例同等的功能那樣的示例的構(gòu)成的圖。在 此,將蓄積在聲音識別服務(wù)器綜合裝置104的內(nèi)部的包含在用戶辭典124中的用戶辭典數(shù) 據(jù)轉(zhuǎn)發(fā)給裝置內(nèi)的聲音合成部114以及識別服務(wù)器通信部112。用戶說出的聲音由麥克風(fēng) 裝置128取入,并轉(zhuǎn)發(fā)給信號處理部120。使用它們的處理的進(jìn)展方式與圖1的示例中說明 過的方式同等,作為結(jié)果,能使識別結(jié)果綜合部122確定識別結(jié)果。該識別結(jié)果轉(zhuǎn)發(fā)給裝置 內(nèi)的顯示部132,向用戶提示。
[0067] [實(shí)施例5]
[0068] 圖17是表示了以圖16所示的示例為基礎(chǔ)進(jìn)一步將專用聲音識別服務(wù)器所擔(dān)負(fù)的 功能組入到聲音識別服務(wù)器綜合裝置的情況下的構(gòu)成的圖。從包含在聲音識別服務(wù)器綜合 裝置104中的麥克風(fēng)裝置128取入輸入聲音,從用戶辭典124轉(zhuǎn)發(fā)用戶辭典數(shù)據(jù)的部分與 圖16的示例相同,但除此以外還在裝置內(nèi)組入專用聲音識別部108,在直接讀出用戶辭典 的內(nèi)容的基礎(chǔ)上識別從麥克風(fēng)裝置送來的聲音數(shù)據(jù)。在此得到的單體識別結(jié)果被送往識別 結(jié)果綜合部122,與由通用聲音識別服務(wù)器組106得到的識別結(jié)果進(jìn)行綜合。綜合后的識別 結(jié)果被送往存在于裝置內(nèi)的應(yīng)用130,在此沿著各個(gè)應(yīng)用的目的來靈活應(yīng)用。
[0069] 產(chǎn)業(yè)上的可利用性
[0070] 本發(fā)明能作為介于車載終端與聲音識別服務(wù)器之間用于提供高精度的聲音識別 功能的聲音數(shù)據(jù)中繼裝置來利用。
[0071] 標(biāo)號說明
[0072] 102用戶終端
[0073] 104中繼服務(wù)器
[0074] 106通用聲音識別服務(wù)器組
[0075] 108專用聲音識別服務(wù)器
[0076] 110終端裝置通信部
[0077] 112識別服務(wù)器通信部
[0078] 114聲音合成部
[0079] 116綜合方式學(xué)習(xí)部
[0080] 118結(jié)果綜合用參數(shù)
[0081] 120信號處理部
[0082] 122識別結(jié)果綜合部
[0083] 124用戶辭典
[0084] 126語句比較/類似度估計(jì)部
[0085] 128麥克風(fēng)裝置
[0086] 130 應(yīng)用
[0087] 132顯示部
【權(quán)利要求】
1. 一種聲音識別服務(wù)器綜合裝置,是對用于用戶使用聲音來進(jìn)行操作的終端裝置、與 識別聲音數(shù)據(jù)并返回其結(jié)果的聲音識別服務(wù)器之間進(jìn)行中繼的裝置,其中, 所述聲音識別服務(wù)器綜合裝置具備: 基于用戶所登記的語句或用戶經(jīng)常使用的語句的列表來學(xué)習(xí)并保存識別結(jié)果綜合用 參數(shù)的綜合方式學(xué)習(xí)部; 從所述終端裝置接收用戶為了聲音識別而刻意發(fā)出的聲音的數(shù)據(jù)的單元; 將所述接收到的聲音數(shù)據(jù)發(fā)送給通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器的單 元; 接收所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器對所述聲音數(shù)據(jù)進(jìn)行識別的 識別結(jié)果的單元; 將所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器進(jìn)行識別的識別結(jié)果與所述保 存的識別結(jié)果綜合用參數(shù)進(jìn)行比較來選擇最佳的識別結(jié)果的識別結(jié)果綜合部;和 將所述選擇的識別結(jié)果發(fā)送給所述終端裝置的單元。
2. 根據(jù)權(quán)利要求1所述的聲音識別服務(wù)器綜合裝置,其特征在于, 所述聲音識別服務(wù)器綜合裝置還具備: 從所述終端裝置接收用戶所登記的語句或用戶經(jīng)常使用的語句的列表的單元; 以所述接收到的語句為基礎(chǔ)來生成合成聲音的聲音合成部; 將所述生成的合成聲音發(fā)送給所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器的 單元;和 接收所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器對所述合成聲音進(jìn)行識別的 識別結(jié)果的單元, 所述綜合方式學(xué)習(xí)部將成為所述合成聲音的基礎(chǔ)的語句和所述識別結(jié)果一起進(jìn)行解 析,學(xué)習(xí)并保存識別結(jié)果綜合用參數(shù)。
3. 根據(jù)權(quán)利要求1所述的聲音識別服務(wù)器綜合裝置,其特征在于, 所述聲音識別服務(wù)器綜合裝置還具備: 從所述終端裝置接收用戶所登記的語句或用戶經(jīng)常使用的語句的列表的單元; 從所述通用聲音識別服務(wù)器接收識別用語句列表的單元;和 將所述識別用語句列表與從所述終端裝置接收到的語句列表進(jìn)行比較來估計(jì)類似度 的語句比較/類似度估計(jì)部, 所述綜合方式學(xué)習(xí)部將所述估計(jì)結(jié)果作為識別結(jié)果綜合用參數(shù)來保存。
4. 一種聲音識別服務(wù)器綜合裝置,是用于用戶使用聲音來進(jìn)行操作的裝置,其中, 所述聲音識別服務(wù)器綜合裝置具備: 基于用戶所登記的語句或用戶經(jīng)常使用的語句的列表來學(xué)習(xí)并保存識別結(jié)果綜合用 參數(shù)的綜合方式學(xué)習(xí)部; 將用戶為了聲音識別而刻意發(fā)出的聲音的數(shù)據(jù)發(fā)送給通用聲音識別服務(wù)器以及專用 聲音識別服務(wù)器的單元; 接收所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器對所述聲音數(shù)據(jù)進(jìn)行識別的 識別結(jié)果的單元; 將所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器的識別結(jié)果與所述保存的識別 結(jié)果綜合用參數(shù)進(jìn)行比較來選擇最佳的識別結(jié)果的識別結(jié)果綜合部;和 顯示所述選擇的識別結(jié)果的顯示部。
5. 根據(jù)權(quán)利要求4所述的聲音識別服務(wù)器綜合裝置,其特征在于, 所述聲音識別服務(wù)器綜合裝置還具備: 存儲用戶所登記的語句或用戶經(jīng)常使用的語句的用戶辭典; 以存儲于所述用戶辭典的語句為基礎(chǔ)來生成合成聲音的聲音合成部; 將所述生成的合成聲音發(fā)送給所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器的 單元;和 接收所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器對所述合成聲音進(jìn)行識別的 識別結(jié)果的單元, 所述綜合方式學(xué)習(xí)部將成為所述合成聲音的基礎(chǔ)的語句和所述識別結(jié)果一起進(jìn)行解 析,學(xué)習(xí)并保存識別結(jié)果綜合用參數(shù)。
6. 根據(jù)權(quán)利要求4所述的聲音識別服務(wù)器綜合裝置,其特征在于, 所述聲音識別服務(wù)器綜合裝置還具備: 存儲用戶所登記的語句或用戶經(jīng)常使用的語句的列表的用戶辭典; 從所述通用聲音識別服務(wù)器接收識別用語句列表的單元;和 將所述識別用語句列表與所述用戶辭典的語句列表進(jìn)行比較來估計(jì)類似度的語句比 較/類似估計(jì)部, 所述綜合方式學(xué)習(xí)部將所述估計(jì)結(jié)果作為識別結(jié)果綜合用參數(shù)來保存。
7. 根據(jù)權(quán)利要求1?6中任一項(xiàng)所述的聲音識別服務(wù)器綜合裝置,其特征在于, 所述專用聲音識別服務(wù)器以用戶所登記的語句或用戶經(jīng)常使用的語句的列表為基礎(chǔ) 來作成識別對象語句列表,從而能高精度地識別包含在該列表中的語句。
8. 根據(jù)權(quán)利要求1?6中任一項(xiàng)所述的聲音識別服務(wù)器綜合裝置,其特征在于, 所述專用聲音識別服務(wù)器作為聲音專用識別部被組入到所述聲音識別服務(wù)器綜合裝 置或終端裝置內(nèi)。
9. 根據(jù)權(quán)利要求2或5所述的聲音識別服務(wù)器綜合裝置,其中, 所述識別結(jié)果綜合用參數(shù)是蓄積聲音識別服務(wù)器針對用戶所登記的語句或用戶經(jīng)常 使用的語句的識別結(jié)果的正確與錯(cuò)誤的參數(shù), 所述識別結(jié)果綜合部以所述專用聲音識別服務(wù)器進(jìn)行識別的識別結(jié)果為基礎(chǔ),從所述 識別結(jié)果綜合用參數(shù)之中取出聲音識別服務(wù)器針對其單詞的識別結(jié)果,并且僅取出所述取 出的結(jié)果為正確這樣的聲音識別服務(wù)器進(jìn)行識別的聲音識別結(jié)果,基于所述取出的識別結(jié) 果來選擇最佳的識別結(jié)果。
10. 根據(jù)權(quán)利要求2或5所述的聲音識別服務(wù)器綜合裝置,其特征在于, 所述識別結(jié)果綜合用參數(shù)是蓄積聲音識別服務(wù)器針對用戶所登記的語句或用戶經(jīng)常 使用的語句的識別結(jié)果的正確與錯(cuò)誤、以及表征所述聲音識別服務(wù)器針對各個(gè)語句的識別 結(jié)果的可靠度的值的參數(shù), 所述識別結(jié)果綜合部以所述專用聲音識別服務(wù)器進(jìn)行識別的識別結(jié)果為基礎(chǔ),從所述 識別結(jié)果綜合用參數(shù)之中取出所述聲音識別服務(wù)器針對其單詞的識別結(jié)果以及其可靠度, 并且僅取出所述取出的識別結(jié)果為正確這樣的聲音識別服務(wù)器進(jìn)行識別的聲音識別結(jié)果 以及可靠度,對所述取出的聲音識別結(jié)果進(jìn)行所述可靠度的加權(quán)來綜合。
11. 根據(jù)權(quán)利要求2或5所述的聲音識別服務(wù)器綜合裝置,其特征在于, 所述識別結(jié)果綜合用參數(shù)是測定聲音識別服務(wù)器針對用戶所登記的語句或用戶經(jīng)常 使用的語句的識別所花費(fèi)的時(shí)間并蓄積測定值的參數(shù), 所述識別結(jié)果綜合部以所述專用聲音識別服務(wù)器進(jìn)行識別的識別結(jié)果為基礎(chǔ),從所述 識別結(jié)果綜合用參數(shù)之中取出所述聲音識別服務(wù)器針對其單詞的識別所需時(shí)間,獲取依賴 于應(yīng)用而決定的識別所需時(shí)間的容許上限值,通過取出聲音識別服務(wù)器之中只是識別所需 時(shí)間低于所述容許上限值的聲音識別服務(wù)器的識別結(jié)果,從而以所述取出的識別結(jié)果為基 礎(chǔ)來選擇最佳的識別結(jié)果。
12. 根據(jù)權(quán)利要求2或5所述的聲音識別服務(wù)器綜合裝置,其特征在于, 所述識別結(jié)果綜合用參數(shù)是蓄積聲音識別服務(wù)器針對用戶所登記的語句或用戶經(jīng)常 使用的語句的識別結(jié)果的正確與錯(cuò)誤、以及一個(gè)或多個(gè)誤識別結(jié)果的參數(shù), 所述識別結(jié)果綜合部以所述專用聲音識別服務(wù)器進(jìn)行識別的識別結(jié)果為基礎(chǔ),從所述 識別結(jié)果綜合用參數(shù)之中取出所述聲音識別服務(wù)器針對其單詞的識別結(jié)果的正確與錯(cuò)誤 以及誤識別結(jié)果,在所述取出的識別結(jié)果為錯(cuò)誤的情況下,將所述取出的誤識別結(jié)果與執(zhí) 行時(shí)的識別結(jié)果進(jìn)行比較,僅在判定為所述比較的結(jié)果為相同的情況下,將該識別結(jié)果設(shè) 為有效,從而以被設(shè)為所述有效的識別結(jié)果為基礎(chǔ)來選擇最佳的識別結(jié)果。
13. -種聲音識別服務(wù)器綜合方法,由以下步驟構(gòu)成: 基于用戶所登記的語句或用戶經(jīng)常使用的語句的列表來學(xué)習(xí)并保存識別結(jié)果綜合用 參數(shù)的步驟; 將用戶為了聲音識別而刻意發(fā)出的聲音的數(shù)據(jù)發(fā)送給通用聲音識別服務(wù)器以及專用 聲音識別服務(wù)器的步驟; 接收所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器對所述聲音數(shù)據(jù)進(jìn)行識別的 識別結(jié)果的步驟;和 將通用聲音識別服務(wù)器的識別結(jié)果以及專用聲音識別服務(wù)器的識別結(jié)果與所述識別 結(jié)果綜合用參數(shù)進(jìn)行比較來選擇最佳的聲音識別結(jié)果的步驟。
14. 根據(jù)權(quán)利要求13所述的聲音識別服務(wù)器綜合方法,其特征在于, 所述聲音識別服務(wù)器綜合方法還具備: 以用戶所登記的語句或用戶經(jīng)常使用的語句為基礎(chǔ)來生成合成聲音的步驟; 將所述生成的合成聲音發(fā)送給所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器的 步驟;和 接收所述通用聲音識別服務(wù)器以及專用聲音識別服務(wù)器對所述合成聲音進(jìn)行識別的 識別結(jié)果的步驟, 在學(xué)習(xí)并保存識別結(jié)果綜合用參數(shù)的步驟中,將成為所述合成聲音的基礎(chǔ)的語句和所 述識別結(jié)果一起解析,來學(xué)習(xí)并保存識別結(jié)果綜合用參數(shù)。
15. 根據(jù)權(quán)利要求13所述的聲音識別服務(wù)器綜合方法,其特征在于, 所述聲音識別服務(wù)器綜合方法還具備: 得到用戶所登記的語句或用戶經(jīng)常使用的語句的列表的步驟; 從所述通用聲音識別服務(wù)器接收識別用語句列表的步驟;和 將所述識別用語句列表與所述用戶所登記的語句或用戶經(jīng)常使用的語句的列表比較 來估計(jì)類似度的步驟, 在學(xué)習(xí)并保存所述識別結(jié)果綜合用參數(shù)的步驟中,將所述估計(jì)結(jié)果作為識別結(jié)果綜合 用參數(shù)來保存。
【文檔編號】G10L15/30GK104221078SQ201380018950
【公開日】2014年12月17日 申請日期:2013年4月3日 優(yōu)先權(quán)日:2012年4月9日
【發(fā)明者】大淵康成, 本間健 申請人:歌樂株式會社