聲音識別裝置制造方法

文檔序號：2825798閱讀：248來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

聲音識別裝置制造方法
【專利摘要】按照每個(gè)用戶的字母輸入方式信息，對于由字母列構(gòu)成的單詞，針對每個(gè)字母在字母前附加“ドット”(dotto)，在是“M與N”、“B與P”等不容易識別的字母的情況下，將一方以重復(fù)兩次的狀態(tài)登記到單詞字典。例如將單詞“PAM”以及與“ドットピーピードットエードットエム”(dottoPP?dottoA?dottoM)對應(yīng)的時(shí)間序列的特征量對應(yīng)地進(jìn)行登記。在用戶聲音輸入“PAM”的情況下，按照自己的字母輸入方式信息發(fā)聲為“ドットピーピードットエードットエム”(dottoPP?dottoA?dottoM)。使用與該用戶的字母輸入方式信息相應(yīng)的單詞字典對該聲音數(shù)據(jù)進(jìn)行聲音識別。
【專利說明】聲音識別裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種聲音識別裝置。
【背景技術(shù)】
[0002]對于從事物流、醫(yī)療等工作的人員來說，存在想通過聲音識別來實(shí)現(xiàn)工作的效率化、工作的免提化這種希望。
[0003]特別是，在物流、醫(yī)療等工作中，在很多情況下需要輸入產(chǎn)品的型號、ID等字母與數(shù)字混合存在的文字列，字母、數(shù)字的聲音識別精度良好且誤識別少對基于聲音識別的工作的效率化有很大貢獻(xiàn)。
[0004]然而，特別是字母，發(fā)聲時(shí)非常短，并且發(fā)音相互接近的文字也多，從而難以正確地進(jìn)行識別。
[0005]例如，“C”、“E”、“T”等的發(fā)音能量強(qiáng)的部分的大部分為延長為尾音“ 4 一” ([1:])的部分，人難以聽到。
[0006]特別是，在倉庫、工廠等存在噪音的環(huán)境中，輔音與噪音混淆而變得不清楚，因此更難識別。
[0007]因此，以往，采取了以下方法:如 A:alpha( 7 7 r 一)、B:bravo ( 7" 7 術(shù)一)、C:Charlie( 等那樣，針對每個(gè)字母分配以該文字為開始的英文單詞，將其讀音登記到聲音識別裝置，用戶通過發(fā)出這些分配的英文單詞來獲取與英文單詞對應(yīng)的字母。
[0008]另外，還考慮以下方法:連續(xù)地發(fā)出某個(gè)字母的一個(gè)文字以及字母順序?yàn)榻又撟帜傅囊粋€(gè)字母的文字(例如，參照專利文獻(xiàn)I)。
[0009]在該方式中，例如“ADC”的情況下的讀音成為“工一匕一于'I 一 4 一 '> 一 r ^—” (AB DE CD)。
[0010]其目的在于，利用通過設(shè)為兩個(gè)字母的文字的組合而發(fā)出的聲音的特征量變大，而與一個(gè)字母的文字的情況相比提高識別率。
[0011]專利文獻(xiàn)1:日本特開平11-167393號公報(bào)

【發(fā)明內(nèi)容】

[0012]發(fā)明要解決的問題
[0013]然而，在針對每個(gè)字母來分配以該文字開始的英文單詞的方式中，發(fā)聲者需要學(xué)習(xí)與26個(gè)字母的文字對應(yīng)的英文單詞。也就是說，為了進(jìn)行更快速的聲音輸入，需要記住與每個(gè)字母對應(yīng)的英文單詞，記憶費(fèi)時(shí)因此導(dǎo)致培訓(xùn)成本增加。
[0014]另外，在針對每個(gè)字母分配以該文字開始的英文單詞的方式的情況下，存在以下問題:在發(fā)聲者發(fā)聲時(shí)必須一邊始終連想下一個(gè)字母并想出與此對應(yīng)的英文單詞一邊發(fā)聲。
[0015]另外，在依照連續(xù)地發(fā)出一個(gè)字母的文字以及字母順序接著該字母的一個(gè)字母的文字的方式的情況下，將“ADC”讀為“工一 ?' 一 fM — 4 一-> 一 fM —” (AB DE CD)，但是
容易發(fā)生接著“工一” (A)之后直接發(fā)出“〒^ 一” (D)、或者沒有瞬間說出要接在某一字母之后的字母而變得吞吞吐吐等錯誤發(fā)聲。
[0016]因此，為了始終正確地進(jìn)行輸入，發(fā)聲者需要保持集中力以避免這些錯誤發(fā)聲，負(fù)擔(dān)大。
[0017]因此，本發(fā)明的目的在于提供一種能夠提高聲音識別精度并且適于減小發(fā)聲者的負(fù)擔(dān)的聲音識別裝置。
[0018]用于解決問題的方案
[0019]本發(fā)明的一個(gè)方式是一種聲音識別裝置，其特征在于，具有:識別字典；以及聲音識別處理部，其使用該識別字典來進(jìn)行聲音識別處理，其中，在上述識別字典中登記有將識別對象文字和與聲音數(shù)據(jù)有關(guān)的信息相對應(yīng)而得到的識別數(shù)據(jù)，該聲音數(shù)據(jù)表示由規(guī)定文字列和接著該規(guī)定文字列的上述識別對象文字構(gòu)成的連續(xù)文字列的讀音，上述規(guī)定文字列是在發(fā)出上述連續(xù)文字列的讀音時(shí)用于提高上述識別對象文字的開頭音素的聲能的文字列。
[0020]可以是，上述規(guī)定文字列是日文的文字列，是其讀音為三個(gè)音拍(mora)以上且其末端的兩個(gè)音拍為(tto)”的文字列。
[0021 ] 可以是，上述規(guī)定文字列是英文的文字列，是其讀音以輔音、元音、輔音的順序構(gòu)成的文字列。
[0022]可以是，上述規(guī)定文字列是中文的文字列，是其讀音以中文聲調(diào)被分類為第三聲且為一個(gè)音節(jié)的文字列。
[0023]可以是，在上述識別字典中登記有將識別對象文字和與聲音數(shù)據(jù)有關(guān)的信息相對應(yīng)而得到的識別數(shù)據(jù)，該聲音數(shù)據(jù)`表示由上述規(guī)定文字列和接著該規(guī)定文字列的連續(xù)了規(guī)定次數(shù)的上述識別對象文字構(gòu)成的連續(xù)文字列的讀音。
[0024]可以是，上述識別對象文字為字母。
[0025]發(fā)明的效果
[0026]根據(jù)本發(fā)明的一個(gè)方式，識別字典中登記有將識別對象文字和與聲音數(shù)據(jù)有關(guān)的信息相對應(yīng)而得到的識別數(shù)據(jù)，該聲音數(shù)據(jù)表示由規(guī)定文字列和接著該規(guī)定文字列的識別對象文字構(gòu)成的連續(xù)文字列的讀音，作為規(guī)定文字列，被設(shè)定為用于提高識別對象文字的開頭音素的聲能的文字列。用戶在識別對象文字之前附加規(guī)定文字列而發(fā)聲，由此能夠容易提取識別對象文字的聲音的特征量，其結(jié)果，能夠提高識別對象文字的識別率。
[0027]另外，通過附加日文并且是“ F' ^卜”(dotto)、“7 ^卜”(atto)等日文讀音為三個(gè)音拍以上的單詞且其末端的兩個(gè)音拍為“ c △ (tto)”(日文促音)的文字列作為規(guī)定文字列，在發(fā)聲時(shí)能夠容易地提高識別對象文字的開頭音素的聲能。
[0028]另外，通過附加英文并且是“(1於”、、1*”、、於”、“(11*”這種其文字列的英文讀音以輔音、元音、輔音的順序構(gòu)成的文字列作為規(guī)定文字列，在發(fā)聲時(shí)能夠容易地提高識別對象文字的開頭音素的聲能。
[0029]另外，附加中文并且是“點(diǎn)(Π 二 > ) ”、“簡(夕二 > ) ”、“黨(夕' > )”這種其文字列的中文讀音以中文聲調(diào)被分類為第三聲且為一個(gè)音節(jié)的文字列作為規(guī)定文字列，在發(fā)聲時(shí)能夠容易地提高識別對象文字的開頭音素的聲能。[0030]另外,通過使用與不僅附加規(guī)定文字列還使識別對象文字連續(xù)而成的連續(xù)文字列對應(yīng)的識別字典，即使在不容易識別的識別對象文字之間，對于一方，使識別對象文字連續(xù)而容易提取出聲音的特征量，由此在不容易識別的文字之間也能夠容易地識別，即能夠進(jìn)一步提聞識別率。
[0031]另外，根據(jù)本發(fā)明的其它方式，對字母附加規(guī)定文字列。關(guān)于字母，發(fā)聲時(shí)的長度短并且發(fā)音相互接近的文字也多，但是通過對字母附加規(guī)定文字列，能夠更容易地提取出字母的聲首的特征量，進(jìn)一步提聞識別率。
【專利附圖】

【附圖說明】
[0032]圖1是表示本發(fā)明中的聲音識別裝置的一例的概要結(jié)構(gòu)圖。
[0033]圖2是表示中文的各聲調(diào)的圖案的圖。
[0034]圖3是母語為日文的日本人發(fā)出字母“ B ”時(shí)的頻譜圖的一例。
[0035]圖4是母語為日文的日本人在字母“B”前附加“ F'，卜”(dotto)而發(fā)聲時(shí)的頻譜圖的一例。
[0036]圖5是圖3的字母“B”的開頭要素部分的放大圖。
[0037]圖6是圖4的字母“B”的開頭要素部分的放大圖。
[0038]圖7是母語為英文的北美出生者發(fā)出字母“K”時(shí)的頻譜圖的一例。
[0039]圖8是母語為英文的北美出生者在字母“K”前附加“pub” ( 〃 7' )而發(fā)聲時(shí)的頻譜圖的一例。
[0040]圖9是圖7的字母“K”的開頭要素部分的放大圖。
[0041]圖10是圖8的字母“K”的開頭要素部分的放大圖。
[0042]圖11是母語為中文普通話的中國出生者發(fā)出字母“D”時(shí)的頻譜圖的一例。
[0043]圖12是母語為中文普通話的中國出生者在字母“D”前附加“點(diǎn)(二 > )”而發(fā)聲時(shí)的頻譜圖的一例。
[0044]圖13是圖11的字母“D”的開頭要素部分的放大圖。
[0045]圖14是圖12的字母“D”的開頭要素部分的放大圖。
[0046]圖15是發(fā)出一個(gè)字母的文字的情況下的識別率的一例。
[0047]圖16是在一個(gè)字母的文字前附加“ K 卜”(dotto)而發(fā)聲的情況下的識別率的一例。
[0048]圖17是連續(xù)發(fā)出兩個(gè)字母的文字的情況下的識別率的一例。
[0049]圖18是在各字母前附加“卜'' 卜”(dotto)而連續(xù)發(fā)出兩個(gè)字母的文字的情況下的識別率的一例。
[0050]圖19是表示母語為英文的北美出生者一人在字母前不進(jìn)行任何附加而發(fā)出一個(gè)字母的文字的情況下以及在字母前附加“pub” ( 〃 7' )而發(fā)聲的情況下的第一至第五候選的識別率的圖。
[0051]圖20是表示母語為英文的北美出生者一人在字母前不進(jìn)行任何附加而發(fā)出兩個(gè)字母的文字的情況下以及在字母前附加“pub” ( 〃 7' )而發(fā)聲的情況下的第一至第五候選的識別率的圖。
[0052]圖21是表示母語為中文普通話的中國出生者一人在字母前不進(jìn)行任何附加而發(fā)出一個(gè)字母的文字的情況下以及在字母前附加“點(diǎn)(- >)”而發(fā)聲的情況下的第一至第五候選的識別率的圖。
[0053]圖22是表示母語為中文普通話的中國出生者一人在字母前不進(jìn)行任何附加而發(fā)出兩個(gè)字母的文字的情況下以及在字母前附加“點(diǎn)(工 >)”而發(fā)聲的情況下的第一至第五候選的識別率的圖。
[0054]圖23是表示聲音識別時(shí)的聲音識別裝置的處理過程的一例的流程圖。
【具體實(shí)施方式】
[0055]下面，參照【專利附圖】

【附圖說明】本發(fā)明的實(shí)施方式。
[0056]圖1是表不本發(fā)明的一個(gè)實(shí)施方式的、表不聲音識別裝置100的一例的概要結(jié)構(gòu)圖。
[0057]該聲音識別裝置100例如由個(gè)人計(jì)算機(jī)構(gòu)成，具備用戶信息處理部1、聲音識別器
2、聲音輸入裝置3以及識別結(jié)果輸出裝置4。
[0058]用戶信息處理部I具備用戶信息輸入裝置11、用戶信息處理執(zhí)行部12以及字母發(fā)聲方式數(shù)據(jù)庫13。
[0059]用戶信息輸入裝置11是向聲音識別裝置100的登錄操作、并且用于輸入用戶信息等的裝置，例如由鍵盤等構(gòu)成。上述用戶信息是用于確定進(jìn)行聲音識別的用戶的信息，例如包含用戶ID。
[0060]用戶信息處理執(zhí)行部12被從用戶信息輸入裝置11輸入用戶信息，從字母發(fā)聲方式數(shù)據(jù)庫13讀出與用戶信息對應(yīng)的各種信息。在此，在字母發(fā)聲方式數(shù)據(jù)庫13中針對每個(gè)用戶ID存儲有表示由該用戶ID確定的用戶以哪種輸入方式輸入字母的字母輸入方式信息。在后文中說明該字母輸入方式信息。
[0061]用戶信息處理執(zhí)行部12從字母發(fā)聲方式數(shù)據(jù)庫13讀出與從用戶信息輸入裝置11輸入的用戶信息對應(yīng)的字母輸入方式信息，將該字母輸入方式信息輸出到聲音識別器2的后述的聲音對照處理執(zhí)行部21。
[0062]聲音識別器2具備聲音對照處理執(zhí)行部21、聲音模式數(shù)據(jù)庫22、單詞字典數(shù)據(jù)庫23以及語言模式數(shù)據(jù)庫24。
[0063]聲音對照處理執(zhí)行部21被從聲音輸入裝置3輸入聲音數(shù)據(jù)，根據(jù)聲音模式數(shù)據(jù)庫22、單詞字典數(shù)據(jù)庫23以及語言模式數(shù)據(jù)庫24所存儲的聲音模式、單詞字典和語言模式，對所輸入的聲音數(shù)據(jù)進(jìn)行聲音識別，將其結(jié)果輸出到識別結(jié)果輸出裝置4。
[0064]在此，在單詞字典數(shù)據(jù)庫23中，作為單詞字典，對應(yīng)地存儲有表示任意的單詞的文字列與對應(yīng)于文字列的聲音模式的時(shí)間序列的特征量。并且，對于由字母列構(gòu)成的單詞或者包含字母的單詞，針對每個(gè)字母對應(yīng)地存儲有表示在其之前附加預(yù)先設(shè)定的單詞例如“ K 卜”(dotto)而得到的單詞的聲音模式的時(shí)間序列的特征量。
[0065]例如，在單詞“ADC”的情況下，對應(yīng)地存儲有與“卜'' 卜工一 K 'y卜— K 'y卜一” (dottoA dottoD dottoC)對應(yīng)的聲音模式的時(shí)間序列的特征量以及單詞“ADC”。此
外，在此所指的字母列并非是英文單詞，是指按字母發(fā)聲而表示一個(gè)單詞的字母的排列。
[0066]并且，例如對于“N”，對應(yīng)地存儲有與“ F' ^卜二 3 二 3 ” (dottoNN)對應(yīng)的聲音模式的特征量，對于“P”，對應(yīng)地存儲有與“卜'' y卜一” (dottoPP)對應(yīng)的聲音模式的特征量。例如，在單詞“PM”的情況下，對應(yīng)地存儲有與“卜'' 卜C一 !^一 K ^卜工A”(dottoPPdottoM)對應(yīng)的聲音模式的時(shí)間序列的特征量以及單詞“PM”。此外，與利用聲音識別裝置100的各用戶的字母輸入方式信息對應(yīng)地設(shè)定附加到這些字母前的單詞的種類、與字母“N”和“P”有關(guān)的特征量的設(shè)定方法。
[0067]聲音輸入裝置3由麥克風(fēng)等聲音收集裝置構(gòu)成。該聲音輸入裝置3將發(fā)聲聲音變換為與該聲音對應(yīng)的模擬的電信號，用未圖示的A/D變換器將該電信號變換為數(shù)字信號，將該數(shù)字信號作為聲音數(shù)據(jù)輸出到聲音識別器2。
[0068]識別結(jié)果輸出裝置4例如由顯示裝置構(gòu)成，顯示由聲音識別器2進(jìn)行聲音識別得到的結(jié)果，即與所輸入的聲音數(shù)據(jù)對應(yīng)的文字列。
[0069]接著，說明本聲音識別裝置100中的字母輸入方法和識別方法的原理。
[0070]在本聲音識別裝置100中，在輸入字母時(shí)，在各字母前附加預(yù)先設(shè)定的單詞來輸入。作為所附加的該單詞，設(shè)定能夠促使提高字母的開頭音素的聲能的單詞。
[0071 ] 作為這種單詞，設(shè)定日文并且日文讀音為三個(gè)音拍以上且其末端兩個(gè)音拍具有促音“。i (tto)” (日語促音)的單詞。
[0072]除此以外，設(shè)定英文并且英文讀音由輔音、元音、輔音的順序構(gòu)成的單詞、中文并且其讀音以中文聲調(diào)被分類為第三聲且為一個(gè)音節(jié)的單詞。
[0073](關(guān)于音拍的說明)
[0074]音拍(mora) 是聲音的文節(jié)(日文語法)單位，表示以幾個(gè)拍讀出該詞。例如以日文讀音，“々t ”為兩個(gè)音拍，“如ff b ^ ”為三個(gè)音拍?！?6 O分姑P ”為五個(gè)音拍。
[0075](關(guān)于中文聲調(diào)的說明)
[0076]中文等的所謂聲調(diào)語言使用聲調(diào)(Tone)來區(qū)分詞的意思。例如圖2所示，中文基本上存在四個(gè)聲調(diào)(第一聲~第四聲:聲調(diào)I~聲調(diào)4)。此外，圖2的橫軸是歸一化時(shí)間，縱軸是從所輸入的聲音提取出的基頻(f0)。關(guān)于中文的數(shù)字“O~9”，將“1、3、7、8”分類為第一聲(聲調(diào)I)，將“O”分類為第二聲(聲調(diào)2)，將“5、9”分類為第三聲(聲調(diào)3)，將“0、2、4、6”分類為第四聲(聲調(diào)4)。
[0077]第三聲的特征在于，與其它聲調(diào)相比基頻(f0)低，并且在緊接著發(fā)聲之后基頻(f0)下降，之后上升。
[0078]如上所述，作為能夠促使提高字母的開頭音素的聲能的對各字母共通附加的單詞，具體地說，能夠應(yīng)用“ F' 卜”(dotto)、“7 'y卜”(atto)、“7 A 7 τ ^
卜 ’，(arufuxabetto)、“pub” (八 7' )、“pot” ( 卜)以及中文讀音“點(diǎn)(于、工 > )”、
“簡(夕工 >)，，、“黨(夕' > )，，等。
[0079]例如在采用“ F' 卜”(dotto)作為對各字母共通附加的單詞的情況下，將“ADC”讀為“卜' '7 卜工一 K 'y 卜于.' "? 一 K 'y 卜一” (dottoA dottoD dottoC)。
[0080]通常，在將“ F' 卜”(dotto)等能夠促使提高字母的開頭音素的聲能的單詞附加到字母前的情況下，首先附加到字母前的卜”(tto)的部分強(qiáng)發(fā)聲，容易保持其氣勢不變而對接著“ y卜”(tto)的字母的開頭音素也進(jìn)行強(qiáng)發(fā)聲。
[0081]在將“pub” (八7' )、“pot” ( 卜)、中文讀音的“點(diǎn)(Π工 > )”等單詞附加
到字母前的情況下，也同樣地，所附加的單詞的尾音強(qiáng)發(fā)聲，容易保持其氣勢不變而對接著該單詞的尾音的字母的開頭音素也進(jìn)行強(qiáng)發(fā)聲。[0082]該字母的開頭音素是以聲音的方式區(qū)分各字母時(shí)有效的部分，該部分強(qiáng)而清楚地發(fā)聲能夠容易提取出聲音的特征量。因此，將這種單詞附加到字母前而發(fā)聲能夠提高字母的識別率。
[0083]在此，在字母的發(fā)聲連續(xù)的情況下，有時(shí)從字母向下一個(gè)字母轉(zhuǎn)移的部分的發(fā)聲容易變形或者不容易清楚地發(fā)聲。
[0084]例如“NHK(注冊商標(biāo))”、“SI”原來的讀法分別為“工^工^千夕一” (enueitike-)、“工7 7* ^ ” (esuai),但是在實(shí)際發(fā)聲中容易接近“工才、一千’一” (ene-tike-) “工寸 4 ” (esai)等這種發(fā)音。
[0085]另外，例如“AM”原來讀法為“ 二一二 A ” (e-emu)，但是實(shí)際上“Μ”的開頭的“二” (e)不容易發(fā)聲，發(fā)音容易接近將“工一” (e-)的部分延長的“工一 (e-mu)。
[0086]發(fā)出這些所謂變形的字母發(fā)聲與聲音識別器2所使用的由聲音模式學(xué)習(xí)的、通常的字母的發(fā)音不同，因此成為產(chǎn)生識別錯誤的主要原因。
[0087]在本實(shí)施方式中，在各字母前附加共通的單詞而發(fā)聲，由此字母的發(fā)聲不會連續(xù)。因此，容易按字母進(jìn)行發(fā)聲。
[0088]即，接近由聲音模式學(xué)習(xí)的字母的發(fā)音，因此能夠提高字母的識別率。
[0089]圖3是母語為日文的日本人在字母“B”前不進(jìn)行任何附加而將其發(fā)聲為“ H一”⑶的情況下的頻譜圖。另外，圖4是與圖3相同的人在字母“B”前附加“ F 卜”(dotto)而發(fā)聲為“ K y卜e—” (dottoB)的情況下的頻譜圖。圖3和圖4的橫軸均表示時(shí)間，縱軸均表示頻率。另外，明亮度表示強(qiáng)度。
[0090]在圖3和圖4中，被虛線包圍的區(qū)域表示“B”的輔音部分。圖5和圖6是放大被該虛線包圍的區(qū)域的圖，圖5是放大圖3的被虛線包圍的部分的圖，圖6是放大圖4的被虛線包圍的區(qū)域的圖。`
[0091]當(dāng)將圖3和圖4的被虛線包圍的部分、即“B”的輔音部分進(jìn)行比較時(shí)，根據(jù)圖5和圖6可知，與圖5相比，圖6的黑色部分與白色部分的對比度清楚，輔音部分的頻譜清楚。即，可知被強(qiáng)發(fā)音。
[0092]由此，可知通過在字母前附加是日文的文字列并且其讀音為三個(gè)音拍以上且末端以結(jié)束的單詞，能夠進(jìn)行字母的開頭音素的發(fā)音清楚的發(fā)聲。
[0093]圖7是母語為英文的北美出生者在字母“K”前不進(jìn)行任何附加而將其發(fā)聲為 — )的情況下的頻譜圖。另外，圖8是與圖7相同的人在字母“K”前附加“pub( 〃
7')”而發(fā)聲為“pubK”( —)的情況下的頻譜圖。在圖7和圖8中，橫軸均表示時(shí)間，縱軸均表示頻率。另外，明亮度表示強(qiáng)度。
[0094]在圖7和圖8中，被虛線包圍的區(qū)域表示“K”的輔音部分。圖9和圖10是放大被該虛線包圍的區(qū)域的圖，圖9是放大圖7的被虛線包圍的部分的圖，圖10是放大圖8的被虛線包圍的區(qū)域的圖。
[0095]當(dāng)將圖7和圖8的被虛線包圍的部分、即“K”的輔音部分進(jìn)行比較時(shí)，根據(jù)圖9和圖10可知，與圖9相比，圖10的黑色部分與白色部分的對比度清楚，輔音部分的頻譜清楚。即，可知被強(qiáng)發(fā)音。
[0096]由此，可知通過在字母前附加其讀音以輔音、元音、輔音的順序構(gòu)成的單詞，能夠進(jìn)行字母的開頭音素的發(fā)音清楚的發(fā)聲。[0097]圖11是母語為中文普通話的中國出生者在字母“D”前不進(jìn)行任何附加而發(fā)聲為
—)的情況下的頻譜圖。另外，圖12是與圖11相同的人在字母“D”前附加“點(diǎn)(工 > )”而發(fā)聲為“點(diǎn)D”( 工—)的情況下的頻譜圖。在圖11和圖12中，橫軸均表示時(shí)間，縱軸均表示頻率。另外，明亮度表示強(qiáng)度。
[0098]在圖11和圖12中，被虛線包圍的區(qū)域表示“D”的輔音部分。圖13和圖14是放大被該虛線包圍的區(qū)域的圖，圖13是放大圖11的被虛線包圍的部分的圖，圖14是放大圖12的被虛線包圍的區(qū)域的圖。
[0099]當(dāng)將圖11和圖12的被虛線包圍的部分、即“D”的輔音部分進(jìn)行比較時(shí)，根據(jù)圖13和圖14可知，與圖13相比，圖14的黑色部分與白色部分的對比度清楚，輔音部分的頻譜清楚。即，可知被強(qiáng)發(fā)音。
[0100]由此，可知通過在字母前附加其讀音以中文聲調(diào)被分類為第三聲且為一個(gè)音節(jié)的單詞，能夠進(jìn)行字母的開頭音素的發(fā)音清楚的發(fā)聲。
[0101]另外，圖15至圖18是母語為日文的說話者在字母前不進(jìn)行任何附加而發(fā)聲的情況下以及在字母前附加“卜'' y卜”(dotto)而發(fā)聲的情況下比較聲音識別率的圖。
[0102]圖15和圖16是針對將母語為日文的五位成年男性、五位成年女性共計(jì)十位設(shè)為受驗(yàn)者、在字母前不進(jìn)行任何附加而發(fā)出一個(gè)字母的文字的情況以及在字母前附加“ K
卜”(dotto)而發(fā)聲的情況示出每個(gè)人的平均識別率與整體平均識別率的圖，是表示第一候選的識別率和第二候選的識別率的圖。在此，第N候選的識別率是表示直到聲音識別結(jié)果的第N候選為止包含正確的字母的概率。
[0103]可知即使在僅一個(gè)字母的文字的情況下，與在字母前不進(jìn)行任何附加而發(fā)聲的情況相比，在字母前附加“ K 卜”(dotto)而發(fā)聲也提高了識別率。
[0104]同樣地，圖17和圖18是針對將母語為日文的三位成年男性設(shè)為受驗(yàn)者、在字母前不進(jìn)行任何附加而發(fā)出兩個(gè)字母的文字的情況以及在每個(gè)字母前附加“卜'' y卜”(dotto)而發(fā)聲的情況示出每個(gè)人的平均識別率和整體的平均識別率的圖，是表示第一候選的識別率和第二候選的識別率的圖。
[0105]如圖15和圖16所示，在一個(gè)字母的文字的情況下，在字母前不附加“ F' 'y卜”(dotto)的情況下的平均識別率在第一候選的情況下為91.15%、在第二候選的情況下為96.54%，與此相對，在字母前附加“ F' 卜”(dotto)的情況下的平均識別率在第一候選的情況下為93.85%、在第二候選的情況下為99.62%，識別率改進(jìn)大約2%~3%。
[0106]與此相對，如圖17和圖18所示，在兩個(gè)字母的文字的情況下，在字母前不附加“ Fy卜”(dotto)的情況下的平均識別率在第一候選的情況下為77.33%、在第二候選的情況下為90.33%，與此相對，在各字母前附加“ F' 卜”(dotto)的情況下的平均識別率在第一候選的情況下為88.67%、在第二候選的情況下為97.67%，識別率改進(jìn)大約7%~11%。
[0107]也就是說，在識別兩個(gè)字母的文字的情況下，針對每個(gè)字母在字母前附加“ F，卜”(dotto)而發(fā)聲所得到的聲音識別率的改進(jìn)大于識別一個(gè)字母的文字的情況下的聲音識別率的改進(jìn)。
[0108]即，可知在字母連續(xù)那樣的發(fā)聲的情況下，通過針對每個(gè)字母在字母前附加“ F'
卜”(dotto)而發(fā)聲，對識別率的提高更有效。
[0109]其理由舉例如下:針對每個(gè)字母在字母前附加“卜'' 〃卜”(dotto)而發(fā)聲與在字母前不進(jìn)行任何附加而發(fā)聲的情況相比，除了容易清楚地發(fā)出各字母的開頭音素以外，字母之間被“卜'' y卜”(dotto)這種單詞隔開，由此字母的發(fā)聲不會連續(xù)，因此不容易形成字母部分變形的發(fā)聲。
[0110]而且，在該方式的情況下，僅在全部英文字母前附加共通的單詞(例如“ F'
卜”(dotto))而發(fā)聲，因此對于發(fā)聲者來說容易理解并記住輸入方式。
[0111]特別是，在設(shè)為共通地附加“ K 〃卜”(dotto)、“ 7 〃卜”(att0)這種單詞的情況下，是短單詞并且分別容易連想到”、“O”這種日常經(jīng)常看到的符號，因此，特別容易記住和實(shí)施對單詞的附加。
[0112]圖19、圖20是將母語為英文的一位北美出生者設(shè)為受驗(yàn)者、在字母前不進(jìn)行任何附加而發(fā)聲的情況下以及在字母前附加“pub” ( 〃 7' )而發(fā)聲的情況下比較聲音識別率的圖。
[0113]圖19是表示在字母前不進(jìn)行任何附加而發(fā)聲一個(gè)字母的文字的情況下以及在字母前附加“pub”( 〃 7' )而發(fā)出一個(gè)字母的文字的情況下的第一至第五候選的識別率的圖。
[0114]圖20是表示由與圖19相同的受驗(yàn)者在字母前不進(jìn)行任何附加而發(fā)出兩個(gè)字母的文字的情況下以及在字母前附加“pub” ( 〃 7' )而發(fā)出兩個(gè)字母的文字的情況下的第一至第五候選的識別率的圖。
[0115]圖21和圖22是將母語為中文普通話的一位中國出生者設(shè)為受驗(yàn)者、在字母前不進(jìn)行任何附加而發(fā)聲的情況下以及在字母前附加中文讀音“點(diǎn)(于]工 > )”而發(fā)聲的情況下比較聲音識別率的圖。
[0116]圖21是表示在字母前不進(jìn)行任何附加而發(fā)出一個(gè)字母的文字的情況下以及在字母前附加“點(diǎn)(r]工 >)”而發(fā)出一個(gè)`字母的文字的情況下的第一至第五候選的識別率的圖。
[0117]圖22是表示由與圖21相同的受驗(yàn)者在字母前不進(jìn)行任何附加而發(fā)出兩個(gè)字母的文字的情況下以及在字母前附加“點(diǎn)(于]工 >)”而發(fā)出兩個(gè)字母的文字的情況下的第一至第五候選的識別率的圖。
[0118]根據(jù)圖19~圖22可知，當(dāng)在字母前附加“pub” (八7' )、“點(diǎn)(于]工 > )”等讀音由輔音、兀音、輔音的順序構(gòu)成的文字列、讀音以中文聲調(diào)被分類為第三聲且為一個(gè)音節(jié)的文字列時(shí)，識別率提聞。
[0119]其理由舉例如下:與針對每個(gè)字母在字母前附加“ K 〃卜”(dotto)而發(fā)聲時(shí)同樣地，與在字母前不進(jìn)行任何附加而發(fā)聲的情況相比，附加“pub” (廣7' )、“點(diǎn)(二 > ) ”等文字列除了容易清楚地發(fā)出各字母的開頭音素以外，字母之間被上述文字列隔開，由此字母的發(fā)聲不會連續(xù)，因此不容易形成字母部分變形的發(fā)聲。
[0120]并且，在本實(shí)施方式中，將共通的單詞附加到各字母，并且能夠?qū)Ω髯帜阜謩e設(shè)定將字母部分發(fā)聲一次還是發(fā)聲兩次。
[0121]例如，字母的“M”(二 A )和“N”(二 3 )的發(fā)音不同的部分并非是開頭而是第二個(gè)音拍，并且“二 (emu)的“A” (mu)和“二 5 ” (enu)的“s” (nu)均為鼻音，因此難以識別。
[0122]對于這種難以識別的字母的組，如果設(shè)定為對一方將字母部分讀一次而對另一方將字母讀兩次(例如將“M”設(shè)為“ F' ^卜工A” (dottoM)而將“N”設(shè)為“卜1卜工5工^ ” (dottoNN)等)，則發(fā)聲時(shí)間長產(chǎn)生明確的差異，因此容易識別雙方的字母。
[0123]另外，在本實(shí)施方式中，關(guān)于各字母，能夠針對每個(gè)人設(shè)定接著共通附加的單詞之后將字母僅發(fā)聲一次還是將字母發(fā)聲兩次。
[0124]也就是說，預(yù)想為接著共通附加的單詞之后將字母僅發(fā)聲一次還是將字母發(fā)聲兩次、哪一個(gè)容易識別針對每個(gè)人或者每個(gè)字母而不同。此外，如果通過接著共通附加的單詞之后將字母僅發(fā)聲一次的方式能夠得到充分的識別精度，則在實(shí)際應(yīng)用中期望使用該方式。
[0125]因此，在字母發(fā)聲方式數(shù)據(jù)庫13中針對每個(gè)用戶保持與接著共通附加的單詞之后將字母僅發(fā)聲一次還是發(fā)聲兩次有關(guān)的信息(以下稱為字母輸入方式信息)。
[0126]例如，特別是關(guān)于容易引起相互誤識別的字母，預(yù)先針對每個(gè)人來測試在將字母讀一次的情況下以及連續(xù)讀兩次的情況下哪一個(gè)讀法在聲音識別裝置100中容易識別。而且，根據(jù)測試得到的結(jié)果，關(guān)于各字母，將與接著共通附加的單詞之后將字母僅發(fā)聲一次還是將字母發(fā)聲兩次有關(guān)的信息登記到字母發(fā)聲方式數(shù)據(jù)庫13。
[0127]例如在用戶A的情況下，關(guān)于難以識別的字母的組“M與N”，作為接著附加的單詞“ K 卜”(dotto)之后讀出字母的次數(shù)，例如將“Μ”設(shè)定為一次，將“N”設(shè)定為兩次。另外，關(guān)于難以識別的字母的組“B與P”，作為接著附加的單詞“ F 卜”(dotto)之后讀出字母的次數(shù)，例如將“B”設(shè)定為一次，將“P”設(shè)定為兩次。
[0128]同樣地，例如在用戶B的情況下，關(guān)于字母的組“M與N”，例如將“M”設(shè)定為兩次，將“N”設(shè)定為一次，關(guān)于字母的組“B與P”，例如將“B”設(shè)定為兩次，將“P”設(shè)定為一次。而且，將這些信息作為字母輸入方式信息與用戶ID對應(yīng)地存儲到字母發(fā)聲方式數(shù)據(jù)庫13。
`[0129]而且，在登錄聲音識別裝置100時(shí)等在用戶信息輸入裝置11中輸入了用戶信息的時(shí)間點(diǎn)，根據(jù)該用戶信息所包含的用戶ID，從字母發(fā)聲方式數(shù)據(jù)庫13獲得與該用戶ID對應(yīng)的字母輸入方式信息，將獲得到的字母輸入方式信息輸出到聲音識別器2的聲音對照處理執(zhí)行部21。
[0130]而且，在聲音對照處理執(zhí)行部21中，根據(jù)從用戶信息處理執(zhí)行部12輸入的字母輸入方式信息來進(jìn)行聲音識別。
[0131]由此，針對聲音識別裝置100的每個(gè)用戶，能夠以最佳的設(shè)定進(jìn)行聲音識別。
[0132]接著，按照圖23的流程圖說明上述實(shí)施方式的動作。
[0133]圖23是表示進(jìn)行聲音識別的情況下的聲音識別裝置100的一系列動作的一例的圖。
[0134]用戶A首先操作用戶信息輸入裝置11而輸入用戶信息，進(jìn)行登錄操作。
[0135]當(dāng)被輸入用戶信息時(shí)，用戶信息輸入裝置11讀入用戶信息，將該用戶信息輸出到用戶信息處理執(zhí)行部12 (步驟SI)。
[0136]用戶信息處理執(zhí)行部12從字母發(fā)聲方式數(shù)據(jù)庫13讀出與用戶信息所包含的用戶ID對應(yīng)的字母輸入方式信息，輸出到聲音對照處理執(zhí)行部21 (步驟S2)。
[0137]用戶A對聲音輸入裝置3發(fā)出識別對象的字母列。
[0138]此時(shí)，用戶A通過作為用戶A的字母輸入方式信息而預(yù)先設(shè)定的輸入方式來發(fā)聲。例如，如上所述，確定為如下:關(guān)于難以識別的字母的組“M與N”，在用戶A的情況下，作為字母輸入方式信息的接著附加的單詞“卜'' y卜”(dotto)之后讀出字母的次數(shù)，例如將“M”決定為一次，將“N”決定為兩次，并且，關(guān)于字母的組“B與P”，作為接著附加的單詞“ F' ”
卜”(dotto)之后讀出字母的次數(shù)，作為設(shè)定，例如將“B”決定為一次，將“P”決定為兩次。
[0139]當(dāng)前，設(shè)為用戶A例如輸入“PAM”作為字母列。用戶A按照作為該用戶A的字母輸入方式信息而設(shè)定的輸入方式，發(fā)聲為“卜'' '7卜匕。一 ^一卜'' '7卜工一卜'' 卜工Λ” (dottoPPdottoA dottoM)ο
[0140]用戶A的發(fā)聲聲音被聲音輸入裝置3收集并進(jìn)行規(guī)定的處理之后，被變換為由數(shù)字信號構(gòu)成的聲音數(shù)據(jù)，輸入到聲音對照處理執(zhí)行部21 (步驟S3、S4)。
[0141]然后，在聲音對照處理執(zhí)行部21中，根據(jù)聲音模式、單詞字典、語言模式對所輸入的聲音數(shù)據(jù)執(zhí)行聲音識別處理(步驟S5)。
[0142]在此，在單詞字典數(shù)據(jù)庫23中，關(guān)于由字母列構(gòu)成的單詞或者包含字母列的單詞，登記有與使用聲音識別裝置100的用戶的字母輸入方式信息對應(yīng)的單詞字典。
[0143]在聲音對照處理執(zhí)行部21中，使用與從用戶信息處理執(zhí)行部12輸入的字母輸入方式信息對應(yīng)的單詞字典來執(zhí)行聲音識別處理。
[0144]也就是說，在單詞字典數(shù)據(jù)庫23中設(shè)定有與各用戶的字母輸入方式信息對應(yīng)的單詞字典。此外，對于該單詞字典的設(shè)定，使用生成使要識別的單詞與表示該單詞的讀音的聲音數(shù)據(jù)的特征量對應(yīng)的單詞字典的公知的單詞字典生成裝置來進(jìn)行即可。
[0145]例如，在上述用戶A和用戶B為使用者的情況下，如上所述，對于“M”、“N”、“P”、“B”，用戶A與用戶B反復(fù)進(jìn)行發(fā)聲的次數(shù)不同。因此，針對每個(gè)字母對應(yīng)地存儲有表示在該字母前附加預(yù)先設(shè)定的單詞例如“卜'' y卜”(dotto)而得到的登記對象單詞的聲音模式的時(shí)間序列的特征量。
[0146]此時(shí)，作為關(guān)于“M”的聲音數(shù)據(jù)的表示“卜''7卜工Λ工Λ” (dottoMM)的聲音數(shù)據(jù)、作為關(guān)于“N”的聲音數(shù)據(jù)的表示“ F 〃卜工3工3 ” (dottoNN)的聲音數(shù)據(jù)、作為關(guān)于“B”的聲音數(shù)據(jù)的表示“卜'' y卜ti — ii 一” (dottoBB)的聲音數(shù)據(jù)、作為關(guān)于“P”的聲音數(shù)據(jù)的表示“ K 卜一一” (dottoPP)的聲音數(shù)據(jù)，對應(yīng)地存儲有與此對應(yīng)的聲音模式的特征量。
[0147]也就是說，例如對于單詞“PAM”，對應(yīng)地存儲有與用戶A的字母輸入方式對應(yīng)的“ F 'y卜if 一 if 一 K 'y卜工一卜…7卜工Λ ”(dottoPP dottoA dottoM)以及與用戶B的字母輸入方式對應(yīng)的“卜' y卜一卜' y卜工一 K '7卜工Λ工Λ” (dottoP dottoA dottoMM)。
[0148]另外，對于單詞“NB”，對應(yīng)地存儲有“ F' 卜工3工3 K 7卜匕'一” (dottoNNdottoB)和 “ F' 7 卜工 5 K 7 卜匕' 一匕' 一” (dottoN dottoBB)。
[0149]而且，在用戶A的情況下，如上所述，作為字母輸入方式信息，將“M”設(shè)定為一次，將“N”設(shè)定為兩次，將“B”設(shè)定為一次，將“P”設(shè)定為兩次。因此，參照與用戶A的字母輸入方式對應(yīng)的、單詞“PAM”與“ F'卜！^一 !^一 K卜工一卜'' 7卜工Λ” (dottoPP dottoAdottoM)對應(yīng)的單詞字典來進(jìn)行聲音識別。
[0150]因而，通過參照與用戶A的字母輸入方式信息對應(yīng)的單詞字典，將表現(xiàn)為“ K 卜匕。一 if 一 F 'y卜工一卜…7卜工λ” (dottoPP dottoA dottoM)的聲音數(shù)據(jù)識別為“P A M”，該“P A M”作為識別結(jié)果，被輸出到識別結(jié)果輸出裝置4而顯示(步驟S6)。
[0151]另一方面，在用戶B的情況下，作為字母輸入方式信息，將“M”設(shè)定為兩次，將“N”設(shè)定為一次，將“B”設(shè)定為兩次，將“P”設(shè)定為一次，因此在聲音輸入單詞“PAM”的情況下，用戶B發(fā)聲為“卜'' 7卜C一 K 7卜工一卜'' 7卜工Λ工Λ” (dottoP dottoA dottoMM)。
[0152]在聲音對照處理執(zhí)行部21中，使用與用戶B的字母輸入方式信息對應(yīng)的單詞字典來進(jìn)行聲音識別，因此參照單詞“PAM”與“ F' ^卜一 K 'V卜工一 F' ^卜工Λ Λ "(dottoPdottoA dottoMM)對應(yīng)的單詞字典來進(jìn)行聲音識別。
[0153]因而，通過參照與用戶B的字母輸入方式信息對應(yīng)的單詞字典，將表示“ K 卜C一卜…7卜工一卜…7卜工Λ工Λ” (dottoP dottoA dottoMM)的聲音數(shù)據(jù)識別為“P A M”。
[0154]在此，如上所述，在聲音輸入字母列的情況下，“PAM”中的“AM”的部分容易被發(fā)聲為“二一 Λ ” (e-mu)。另外，“P”與“B”也難以識別。
[0155]然而，用戶A在發(fā)聲為“PAM”時(shí)，針對每個(gè)字母在該字母前附加“ F 卜”(dotto)，并且關(guān)于“P”反復(fù)兩次“ e—”⑵而發(fā)聲為“卜'' y卜if—” (dottoP)。
[0156]因此，字母“P”、“A”、“M”之間被“ K ^卜” (dotto)這種單詞隔開，其結(jié)果，“AM”的部分不容易發(fā)聲為“工一 (e-mu)，并且容易清楚地發(fā)出各字母的開頭要素。因此，在聲音數(shù)據(jù)中容易出現(xiàn)“M”的聲音的特征量。因而，能夠提高識別率。
[0157]另外，用戶需要在字母前附加“ F' 卜”(dotto)，對各字母附加作為共通的單詞的“ K 卜”(dotto)而比較容易發(fā)聲，因此能夠抑制弄錯要附加的單詞或者說得吞吞吐吐。
[0158]另外，針對每個(gè)用戶設(shè)定字母輸入方式信息，用戶A在根據(jù)該用戶A發(fā)出的聲音數(shù)據(jù)來進(jìn)行聲音識別時(shí)，使用能夠確保某種程度的識別率的輸入方式來發(fā)聲。因此，通過考慮用戶A的發(fā)聲特性來進(jìn)行聲音識別，能夠進(jìn)一步提高識別率。
[0159]此外，在上述實(shí)施方式中，說明了使用“ F 卜”(dotto)作為附加到字母前的單詞的情況，但是并不限定于此。
[0160]如上所述，也可以是附加“ 7 '7卜” (atto)、“ 7 7 r《7卜” (arufuxabetto)的結(jié)構(gòu)。另外，考慮附加到字母前的單詞引起的識別率的差，也可以是作為要附加的單詞，預(yù)先針對每個(gè)用戶檢測識別率良好的單詞，針對每個(gè)用戶附加不同的單詞。
[0161]也就是說，根據(jù)用戶不同而存在發(fā)聲習(xí)慣等，認(rèn)為還存在除了“ F' 卜”(dotto)、 'y卜”(atto)等以外的提高字母的開頭音素的聲能那樣的單詞。因而，也可以針對每個(gè)
用戶附加適合于自己的發(fā)聲特性的、提高字母的開頭音素的聲能那樣的單詞。
[0162]在該情況下，構(gòu)成為在每個(gè)用戶的字母輸入方式信息中還包含作為附加到字母前的單詞附加什么單詞的信息即可。
[0163]另外，發(fā)聲聲音具有個(gè)體差異，根據(jù)用戶不同，有可能即使在字母前不附加單詞也得到充分的識別率。
[0164]因而，還能夠設(shè)為以下結(jié)構(gòu):作為字母輸入方式信息，還包含是否在字母前附加單詞，由此在不需要在字母前附加單詞的用戶的情況下，即使不附加單詞也能夠進(jìn)行聲音識別。
[0165]另外，在上述實(shí)施方式中，說明了在全部字母前附加單詞的情況，但是并不需要在全部字母前附加單詞，也可以構(gòu)成為僅在“M”、“N”、“P”、“B”等難以識別的字母前附加單詞。
[0166]另外，在上述實(shí)施方式中，說明了在將字母列登記到單詞字典時(shí)將表示在各字母前附加“卜'' 7卜”(dotto)而得到的單詞的聲音模式的特征量與字母列對應(yīng)地登記到單詞字典的情況，但是并不限定于此。
[0167]例如，也可以以附加了“ F 〃卜”(dotto)的字母為單位登記到單詞字典。也就是說，也可以以“ K 卜工A”(dottoM)、“ K 7卜?'一” (dottoB)為單位登記到單詞字典。
[0168]另外，在上述實(shí)施方式中，以將與聲音數(shù)據(jù)有關(guān)的信息對應(yīng)地登記到識別字典的情況為中心進(jìn)行了說明，該聲音數(shù)據(jù)表示由字母、用于提高字母的開頭音素的聲能的文字列以及接著該文字列之后的字母構(gòu)成的連續(xù)文字列的讀音。然而，識別對象文字并不限定于字母，也可以是平假名、片假名，沒有特別限定，并且對于識別對象的文字?jǐn)?shù)沒有限定。
[0169]即，在上述實(shí)施方式中，說明了在僅由字母構(gòu)成的字母列中對各字母附加單詞的情況，但是，即使是例如字母與數(shù)字、字母與平假名/片假名等字母與其它文字混合的文字列也能夠應(yīng)用。在該情況下，可以設(shè)為僅對字母附加單詞的結(jié)構(gòu)，并且也可以設(shè)為對文字列全部附加單詞的結(jié)構(gòu)。
[0170]另外，即使是不包含字母的文字列也能夠應(yīng)用，在該情況下，能夠得到與對由字母列構(gòu)成的文字列進(jìn)行聲音識別時(shí)同等的作用效果。
[0171]另外，如圖1所示，在上述實(shí)施方式中，說明了將用戶信息處理部I和聲音識別器2安裝到一個(gè)裝置而構(gòu)成聲音識別裝置100的情況，但是并不限定于此。例如，也可以將用戶信息處理部I和聲音識別器2安裝于不同的裝置，在該情況下，通過通信線路等連接用戶信息處理部I與聲音識別器2即可。
[0172]另外，在上述實(shí)施方式中，說明了對于“M與N”、“B與P”等難以識別的字母將其中一方重復(fù)兩次的情況，但是并不限定于此。例如，也可以代替重復(fù)兩次而將容易發(fā)聲的文字或者單詞附加到字母之后。另外，也可以代替附加“ F' 卜”(dotto)作為附加到字母前的單詞而對其中一方附加其它單詞、例如卜”(atto)。總之，在難以識別的字母之間附加能夠充分得到聲音的特征量的單詞或者文字即可。
[0173]此外，在上述實(shí)施方式中，單詞字典數(shù)據(jù)庫23所存儲的單詞字典與識別字典對應(yīng)，聲音對照處理執(zhí)行部21與聲音識別處理部對應(yīng)，“ K 〃卜” (dotto)與規(guī)定文字列對應(yīng)。
[0174]附圖標(biāo)記說明`
[0175]1:用戶信息處理部；2:聲音識別器；3:聲音輸入裝置；4:識別結(jié)果輸出裝置；11:用戶信息輸入裝置；12:用戶信息處理執(zhí)行部；13:字母發(fā)聲方式數(shù)據(jù)庫；21:聲音對照處理執(zhí)行部；22:聲音模式數(shù)據(jù)庫；23:單詞字典數(shù)據(jù)庫；24:語言模式數(shù)據(jù)庫；100:聲音識別
>j-U ρ?α裝直。
【權(quán)利要求】
1.一種聲音識別裝置，其特征在于，具有: 識別字典；以及聲音識別處理部，其使用該識別字典來進(jìn)行聲音識別處理，其中，在上述識別字典中登記有將識別對象文字和與聲音數(shù)據(jù)有關(guān)的信息相對應(yīng)而得到的識別數(shù)據(jù)，該聲音數(shù)據(jù)表示由規(guī)定文字列和接著該規(guī)定文字列的上述識別對象文字構(gòu)成的連續(xù)文字列的讀音，上述規(guī)定文字列是在發(fā)出上述連續(xù)文字列的讀音時(shí)用于提高上述識別對象文字的開頭音素的聲能的文字列。
2.根據(jù)權(quán)利要求1所述的聲音識別裝置，其特征在于，上述規(guī)定文字列是日文的文字列，是其讀音為三個(gè)音拍以上且其末端的兩個(gè)音拍為“I i (tto) ”的文字列。
3.根據(jù)權(quán)利要求1所述的聲音識別裝置，其特征在于，上述規(guī)定文字列是英文的文字列，是其讀音以輔音、元音、輔音的順序構(gòu)成的文字列。
4.根據(jù)權(quán)利要求1所述的聲音識別裝置，其特征在于，上述規(guī)定文字列是中文的文字列，是其讀音以中文聲調(diào)被分類為第三聲且為一個(gè)音節(jié)的文字列。
5.根據(jù)權(quán)利要求1?4中的任一項(xiàng)所述的聲音識別裝置，其特征在于，在上述識別字典中登記有將識別對象文字和與聲音數(shù)據(jù)有關(guān)的信息相對應(yīng)而得到的識別數(shù)據(jù)，該聲音數(shù)據(jù)表示由上述規(guī)定文字列和接著該規(guī)定文字列的連續(xù)了規(guī)定次數(shù)的上述識別對象文字構(gòu)成的連續(xù)文字列的讀音。
6.根據(jù)權(quán)利要求1?5中的任一項(xiàng)所述的聲音識別裝置，其特征在于，上述識別對象文字為字母。
【文檔編號】G10L15/187GK103827962SQ201280040807
【公開日】2014年5月28日申請日期:2012年8月31日優(yōu)先權(quán)日:2011年9月9日
【發(fā)明者】熊井朋之, 宮崎敏幸申請人:旭化成株式會社

完整全部詳細(xì)技術(shù)資料下載