專利名稱:語(yǔ)音識(shí)別方法、遙控器、信息終端和電話通信終端的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于通過(guò)語(yǔ)音控制在普通生活環(huán)境中可用的設(shè)備的語(yǔ)音識(shí)別方法、使用該語(yǔ)音識(shí)別方法的遙控器、信息終端和電話通信終端。
背景技術(shù):
在常規(guī)的遙控器中,一個(gè)設(shè)備單元需要一個(gè)遙控器,并且通常相同的遙控器不能夠遙控不同的設(shè)備單元。例如,用于電視的遙控器不能夠遙控空調(diào)器。遙控器根據(jù)要被控制的操作內(nèi)容被提供多個(gè)開(kāi)關(guān),并且根據(jù)開(kāi)關(guān)的按下?tīng)顟B(tài),選擇用于目標(biāo)設(shè)備的控制信號(hào),并且發(fā)送到該目標(biāo)設(shè)備單元。在錄像機(jī)等等的情況中,存在多個(gè)必要的操作按鍵,例如用于選擇所需的電視臺(tái)的按鍵、用于指定節(jié)目保留時(shí)間的按鍵、用于設(shè)置錄像帶等等的運(yùn)行時(shí)間的按鍵,并且該按鍵的操作是復(fù)雜的,另外,由于需要對(duì)每個(gè)目標(biāo)設(shè)備單元提供一個(gè)遙控器,因此用戶必須正確地理解每個(gè)遙控器和它們的目標(biāo)設(shè)備單元之間的對(duì)應(yīng)關(guān)系,這是一個(gè)非常困難的工作。
針對(duì)于消除上述大量開(kāi)關(guān)并且僅僅使用一個(gè)遙控器控制多個(gè)目標(biāo)設(shè)備單元的操作的一種遙控器例如在日本專利申請(qǐng)No.2-171098中公開(kāi)。在該現(xiàn)有技術(shù)中,該被遙控的內(nèi)容由語(yǔ)音輸入所指定,并且根據(jù)語(yǔ)音識(shí)別的結(jié)果產(chǎn)生控制信號(hào)。該現(xiàn)有技術(shù)的語(yǔ)音識(shí)別遙控器具有用于把語(yǔ)音識(shí)別結(jié)果轉(zhuǎn)換為設(shè)備控制代碼的可改寫(xiě)映射,使得多個(gè)目標(biāo)設(shè)備單元可以被操作,并且該映射的內(nèi)容被根據(jù)要操作的設(shè)備單元而改寫(xiě)。該映射改寫(xiě)操作需要改變?yōu)槊總€(gè)目標(biāo)設(shè)備單元存儲(chǔ)轉(zhuǎn)換代碼的映射的IC卡。當(dāng)一個(gè)目標(biāo)設(shè)備單元被改變時(shí),搜索相應(yīng)的IC卡。
在該日本專利申請(qǐng)No.5-7385中描述的語(yǔ)音識(shí)別遙控器中,當(dāng)使用設(shè)備和字詞之間對(duì)應(yīng)表以及在控制信號(hào)和設(shè)備狀態(tài)之間的對(duì)應(yīng)表根據(jù)在該設(shè)備狀態(tài)存儲(chǔ)器中的該設(shè)備單元的操作狀態(tài)產(chǎn)生要被禁止的操作內(nèi)容時(shí),為該要被禁止的操作內(nèi)容存儲(chǔ)一個(gè)禁止標(biāo)志。但是,當(dāng)用該語(yǔ)音識(shí)別技術(shù)由單個(gè)遙控器控制多個(gè)設(shè)備單元時(shí),要被識(shí)別的字詞數(shù)目增加。因此,輸入語(yǔ)音的內(nèi)容不總是被正確地識(shí)別,即,被識(shí)別為與指定內(nèi)容不同的內(nèi)容,從而導(dǎo)致故障并且減少作為常規(guī)單元的遙控器的特征。特別地,對(duì)于例如電視、音頻設(shè)備等等這樣的聲音設(shè)備單元,由一個(gè)目標(biāo)設(shè)備單元所產(chǎn)生的噪聲可能啟動(dòng)語(yǔ)音識(shí)別處理,在用戶沒(méi)有發(fā)聲的情況下,該設(shè)備單元可能被操作,或者可能由于該聲音設(shè)備所產(chǎn)生的噪聲導(dǎo)致正確表示所需的控制內(nèi)容的發(fā)音被錯(cuò)誤地識(shí)別,從而需要重復(fù)許多次發(fā)音。
對(duì)于控制上述聲音設(shè)備的語(yǔ)音識(shí)別遙控器,日本專利申請(qǐng)No.57-208596公開(kāi)用于在檢測(cè)到用戶的語(yǔ)音發(fā)音時(shí)使得電視接收器等等的音頻裝置靜音而提高語(yǔ)音識(shí)別電路的識(shí)別率。日本專利申請(qǐng)No.10-282993公開(kāi)通過(guò)增強(qiáng)對(duì)語(yǔ)音識(shí)別處理中的錯(cuò)誤的抵抗力而改進(jìn)語(yǔ)音命令的檢測(cè)的技術(shù),其通過(guò)提供一個(gè)在糾正話筒信號(hào)中所用的聲音補(bǔ)償器,使用來(lái)自語(yǔ)音輸入設(shè)備的語(yǔ)音命令輸入和由音頻信號(hào)和背景噪聲的其他信號(hào)所形成的信號(hào),模擬在擴(kuò)音器和話筒之間的空間中的傳輸線路,用在該語(yǔ)音輸入設(shè)備的位置中估計(jì)的音頻設(shè)備單元所發(fā)送的音頻信號(hào)來(lái)實(shí)現(xiàn)。在這種情況中,當(dāng)使用該語(yǔ)音識(shí)別遙控器時(shí),預(yù)先為對(duì)一個(gè)目標(biāo)設(shè)備單元執(zhí)行靜音除了的指令提供一個(gè)專用電路,并且需要例如調(diào)節(jié)話筒等等的位置和靈敏度這樣的專業(yè)知識(shí)。因此,對(duì)于通用設(shè)備來(lái)說(shuō)存在一個(gè)問(wèn)題。
另外,對(duì)于根據(jù)上述常規(guī)技術(shù)的語(yǔ)音識(shí)別遙控器,以及隨著要被控制的目標(biāo)設(shè)備單元的數(shù)目增加,可能由于未知字詞、多余字詞以及超出系統(tǒng)預(yù)測(cè)之外的發(fā)音等等的錯(cuò)誤識(shí)別而導(dǎo)致故障。因此,為了實(shí)現(xiàn)更加通用的語(yǔ)音識(shí)別類(lèi)型的語(yǔ)音識(shí)別遙控器,需要確定不正確的識(shí)別結(jié)果和超出系統(tǒng)預(yù)測(cè)之外的發(fā)音的拒絕功能。具體來(lái)說(shuō),在持續(xù)執(zhí)行語(yǔ)音識(shí)別處理的狀態(tài)中,在使用環(huán)境中對(duì)正常生活條件上所造成的噪聲,例如朋友之間的交談、人在該遙控器附近走動(dòng)的腳步聲、寵物的發(fā)聲、在廚房做飯時(shí)發(fā)出的噪聲等等不能夠被當(dāng)前的語(yǔ)音識(shí)別技術(shù)所消除。結(jié)果經(jīng)常出現(xiàn)錯(cuò)誤識(shí)別的問(wèn)題。如果對(duì)于被登記字詞的匹配確定的許可范圍被嚴(yán)格設(shè)置,以減小錯(cuò)誤識(shí)別,則可以實(shí)際減少錯(cuò)誤識(shí)別,但是要被識(shí)別的目標(biāo)字詞也經(jīng)常被拒絕,從而需要重復(fù)地發(fā)音并且對(duì)用戶造成麻煩。
上述問(wèn)題不限于遙控器,而且例如信息終端、電話通信終端這樣的各種語(yǔ)音識(shí)別設(shè)備也具有類(lèi)似的問(wèn)題。
本發(fā)明要解決常規(guī)技術(shù)的上述問(wèn)題,并且針對(duì)于提供一種可以用于持續(xù)執(zhí)行語(yǔ)音識(shí)別的設(shè)備減少由于普通生活條件造成的噪聲導(dǎo)致的錯(cuò)誤識(shí)別的語(yǔ)音識(shí)別方法、使用該語(yǔ)音識(shí)別方法的遙控器、信息終端和電話通信終端。
發(fā)明內(nèi)容
為了解決上述問(wèn)題,本發(fā)明包括如下結(jié)構(gòu)。也就是說(shuō),根據(jù)本發(fā)明的語(yǔ)音識(shí)別方法通過(guò)把要被識(shí)別語(yǔ)音的目標(biāo)人員的輸入語(yǔ)音轉(zhuǎn)換為聲音參數(shù)序列,并且使用維特比算法把該聲音參數(shù)序列與對(duì)應(yīng)于關(guān)于被登記字詞的語(yǔ)音單元標(biāo)簽序列的聲音模型相比較而執(zhí)行語(yǔ)音識(shí)別,把用于識(shí)別除了被登記字詞之外的多余字詞的語(yǔ)音單元標(biāo)簽序列與用于被登記字詞的語(yǔ)音單元標(biāo)簽序列相并列,并且在使用維特比算法的比較處理中還為除了被登記字詞之外的多余字詞計(jì)算語(yǔ)音單元標(biāo)簽序列的似然性,從而在多余字詞被作為輸入語(yǔ)音而輸入時(shí),成功地把多余的字詞識(shí)別為多余的字詞。對(duì)應(yīng)于該語(yǔ)音單元標(biāo)簽序列的聲音模型可以是使用隱藏的馬爾可夫模型的聲音模型,并且用于識(shí)別多余字詞的語(yǔ)音單元標(biāo)簽序列可以是通過(guò)均衡所有可用的語(yǔ)音單元模型而獲得的虛擬語(yǔ)音單元模型。也就是說(shuō),該語(yǔ)音被轉(zhuǎn)換為聲音參數(shù)序列,為該聲音參數(shù)序列計(jì)算用于識(shí)別對(duì)應(yīng)于關(guān)于被登記字詞的語(yǔ)音單元標(biāo)簽序列的被登記字詞的聲音模型的似然性以及用于識(shí)別對(duì)應(yīng)于識(shí)別除了被登記字詞之外的語(yǔ)音的語(yǔ)音單元標(biāo)簽序列的多余字詞的聲音模型的似然性。根據(jù)該似然性,進(jìn)行語(yǔ)音識(shí)別,并且用于識(shí)別多余字詞的聲音模型可以被收斂到通過(guò)均衡所有語(yǔ)音單元模型而獲得的虛擬語(yǔ)音單元模型。
通過(guò)上述結(jié)構(gòu),當(dāng)包含被登記字詞的語(yǔ)音被轉(zhuǎn)換為聲音參數(shù)序列時(shí),對(duì)應(yīng)于關(guān)于被登記字詞的語(yǔ)音單元標(biāo)簽序列的隱藏的馬爾可夫模型的似然性被計(jì)算為大于通過(guò)均衡用于該聲音參數(shù)序列的所有語(yǔ)音單元模型而獲得的虛擬語(yǔ)音單元模型的似然性,可以識(shí)別包含在該語(yǔ)音中的被登記字詞。當(dāng)不包含被登記字詞(即,除了被登記字詞之外的語(yǔ)音)的在普通生活條件中造成的噪聲被轉(zhuǎn)換為聲音參數(shù)序列時(shí),對(duì)于該聲音參數(shù)序列,通過(guò)均衡所有語(yǔ)音單元模型所獲得虛擬語(yǔ)音單元模型的似然性(對(duì)應(yīng)于與多余字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的聲音模型的似然性)被計(jì)算為大于對(duì)應(yīng)于與被登記字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的隱藏的馬爾可夫模型的似然性。根據(jù)該似然性,除了被登記字詞之外的語(yǔ)音可以被識(shí)別為多余字詞,從而避免除了被登記字詞之外的語(yǔ)音被錯(cuò)誤識(shí)別為被登記字詞。
根據(jù)本發(fā)明的語(yǔ)音識(shí)別方法通過(guò)把要被識(shí)別語(yǔ)音的目標(biāo)人員的輸入語(yǔ)音轉(zhuǎn)換為一個(gè)聲音參數(shù)序列,并且使用維特比算法把該聲音參數(shù)序列與對(duì)應(yīng)于與一個(gè)被登記字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的聲音模型相比較,與用于該被登記字詞的語(yǔ)音單元標(biāo)簽序列并列地提供用于識(shí)別除了一個(gè)被登記字詞之外的多余字詞的語(yǔ)音單元標(biāo)簽序列,并且在使用維特比算法的比較處理中還對(duì)除了被登記字詞之外的多余字詞計(jì)算語(yǔ)音單元標(biāo)簽序列的似然性,從而當(dāng)作為輸入語(yǔ)音而輸入時(shí),成功地把該多余字詞識(shí)別為一個(gè)多余字詞。對(duì)應(yīng)于該語(yǔ)音單元標(biāo)簽序列的聲音模型可以是使用隱藏的馬爾可夫模型的聲音模型,并且用于識(shí)別多余字詞的語(yǔ)音單元標(biāo)簽序列可以構(gòu)成從僅僅對(duì)應(yīng)于元音的音素的一組音素模型的結(jié)束點(diǎn)到開(kāi)始點(diǎn)的自循環(huán)。在該說(shuō)明中,一個(gè)元音是指由通過(guò)口腔的氣流振動(dòng)聲帶而沒(méi)有強(qiáng)的阻礙所發(fā)出的一個(gè)音素。例如,日語(yǔ)具有5個(gè)元音“a”、“i”、“u”、“e”和“o”。
利用上述結(jié)構(gòu),當(dāng)包含被登記字詞的語(yǔ)音被轉(zhuǎn)換為聲音參數(shù)序列時(shí),根據(jù)包含在該聲音參數(shù)序列中的輔音的音素的存在情況,對(duì)于該聲音參數(shù)序列,對(duì)應(yīng)于關(guān)于被登記字詞的語(yǔ)音單元標(biāo)簽序列的隱藏的馬爾可夫模型的似然性被計(jì)算為大于僅僅由元音音素所構(gòu)成的自循環(huán)網(wǎng)絡(luò)的似然性。根據(jù)該似然性,可以識(shí)別包含在該語(yǔ)音中的被登記字詞。當(dāng)在普通生活條件中所造成的噪聲等等,即不包含被登記字詞的語(yǔ)音(即除了被登記字詞之外的語(yǔ)音)被轉(zhuǎn)換為聲音參數(shù)序列時(shí),根據(jù)包含在該聲音參數(shù)序列并且不包含在被登記字詞中的元音音素,僅僅元音音素的自循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)的似然性被計(jì)算為大于對(duì)應(yīng)于與用于該聲音參數(shù)的被登記字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的存儲(chǔ)器的似然性。根據(jù)該似然性,除了被登記字詞之外的語(yǔ)音可以被識(shí)別為一個(gè)多余字詞,并且可以避免除了被登記字詞之外的語(yǔ)音被錯(cuò)誤識(shí)別為被登記字詞。
根據(jù)本發(fā)明的語(yǔ)音識(shí)別方法通過(guò)把要被識(shí)別元語(yǔ)音的目標(biāo)人員的輸入語(yǔ)音轉(zhuǎn)換為一個(gè)聲音參數(shù)序列,并且使用維特比算法把該聲音參數(shù)序列與對(duì)應(yīng)于與一個(gè)被登記字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的聲音模型相比較,與用于該被登記字詞的語(yǔ)音單元標(biāo)簽序列并列地提供用于識(shí)別除了一個(gè)被登記字詞之外的多余字詞的語(yǔ)音單元標(biāo)簽序列,并且在使用維特比算法的比較處理中還對(duì)除了被登記字詞之外的多余字詞計(jì)算語(yǔ)音單元標(biāo)簽序列的似然性,從而當(dāng)作為輸入語(yǔ)音而輸入時(shí),成功地把該多余字詞識(shí)別為一個(gè)多余字詞。對(duì)應(yīng)于該語(yǔ)音單元標(biāo)簽序列的聲音模型可以是使用隱藏的馬爾可夫模型的聲音模型,并且用于識(shí)別多余字詞的語(yǔ)音單元標(biāo)簽序列可以是通過(guò)均衡與僅僅由元音的音素所構(gòu)成的自循環(huán)網(wǎng)絡(luò)的音素模型并列提供的所有可用的語(yǔ)音單元模型而獲得的虛擬語(yǔ)音單元模型。
另一方面,為了解決上述問(wèn)題,根據(jù)本發(fā)明的遙控器可以通過(guò)說(shuō)出多個(gè)操作目標(biāo)而遙控,并且包括存儲(chǔ)裝置,用于存儲(chǔ)表示遙控操作的要被識(shí)別的字詞;用于輸入由用戶所發(fā)出的語(yǔ)音的裝置;語(yǔ)音識(shí)別裝置,用于使用該存儲(chǔ)裝置識(shí)別要被識(shí)別并且包含在由用戶所發(fā)出的語(yǔ)音中的字詞;以及發(fā)送裝置,用于發(fā)送對(duì)應(yīng)于要被識(shí)別和實(shí)際被該語(yǔ)音識(shí)別裝置所識(shí)別的字詞的設(shè)備控制信號(hào),并且該語(yǔ)音識(shí)別方法基于根據(jù)權(quán)利要求1至3中的任何一項(xiàng)所述的語(yǔ)音識(shí)別方法。也就是說(shuō),該遙控器包括語(yǔ)音檢測(cè)裝置,用于檢測(cè)用戶的語(yǔ)音;語(yǔ)音識(shí)別裝置,用于識(shí)別包含在由該語(yǔ)音檢測(cè)裝置所檢測(cè)語(yǔ)音中的被登記字詞;以及發(fā)送裝置,用于把對(duì)應(yīng)于由該語(yǔ)音識(shí)別裝置所識(shí)別的被登記字詞的設(shè)備控制信號(hào)。該語(yǔ)音識(shí)別裝置識(shí)別包含在由該語(yǔ)音檢測(cè)裝置用根據(jù)權(quán)利要求1至3中的任何一項(xiàng)的語(yǔ)音識(shí)別方法檢測(cè)包含在該語(yǔ)音中的被登記字詞。
利用上述結(jié)構(gòu),當(dāng)在普通生活條件等等中由用戶發(fā)出不包含被登記字詞的噪聲(即,除了被登記字詞之外的語(yǔ)音)時(shí),以用于語(yǔ)音的聲音參數(shù)序列的大結(jié)果值輸出計(jì)算對(duì)應(yīng)于與多余字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的聲音模型的似然性,而以小結(jié)果值輸出計(jì)算對(duì)應(yīng)于與被登記字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的聲音模型的似然性。根據(jù)該似然性,除了被登記字詞之外的語(yǔ)音可以被識(shí)別為多余字詞,可以避免把除了該被登記字詞之外的語(yǔ)音錯(cuò)誤識(shí)別為被登記字詞,并且可以避免遙控器的故障。
該遙控器還包括一個(gè)語(yǔ)音輸入單元,用于允許用戶執(zhí)行通信;以及通信單元,用于根據(jù)要由該語(yǔ)音識(shí)別裝置所識(shí)別的字詞控制對(duì)通信線路的設(shè)置狀態(tài),并且該語(yǔ)音輸入裝置和該通信單元的語(yǔ)音輸入單元可以分別提供。
利用上述結(jié)構(gòu),盡管一個(gè)用戶與一個(gè)相對(duì)方進(jìn)行通信,并且該通信占用該通信單元的語(yǔ)音輸入單元,該用戶的語(yǔ)音可以被輸入到該語(yǔ)音識(shí)別裝置,并且可以控制該通信單元。
該遙控器還可以包括控制裝置,用于執(zhí)行通過(guò)語(yǔ)音發(fā)送和接收郵件的處理、通過(guò)語(yǔ)音管理日程安排的處理、通過(guò)語(yǔ)音進(jìn)行備忘錄處理以及通過(guò)語(yǔ)音進(jìn)行通知處理中的至少一個(gè)處理。
利用上述結(jié)構(gòu),用戶可以通過(guò)僅僅發(fā)出被登記字詞而執(zhí)行實(shí)際操作而實(shí)現(xiàn)通過(guò)語(yǔ)音執(zhí)行發(fā)送和接收郵件的處理、通過(guò)語(yǔ)音管理日程安排的處理、通過(guò)語(yǔ)音進(jìn)行備忘錄處理、以及通過(guò)語(yǔ)音進(jìn)行通知處理。
為了解決上述問(wèn)題,根據(jù)本發(fā)明的信息終端包括語(yǔ)音檢測(cè)裝置,用于檢測(cè)用戶的語(yǔ)音;語(yǔ)音識(shí)別裝置,用于識(shí)別包含在由該語(yǔ)音檢測(cè)裝置所檢測(cè)語(yǔ)音中的被登記字詞;以及控制裝置,用于根據(jù)由語(yǔ)音識(shí)別裝置所識(shí)別的被登記字詞,執(zhí)行語(yǔ)音識(shí)別處理、通過(guò)語(yǔ)音管理日程安排的處理、通過(guò)語(yǔ)音進(jìn)行備忘錄處理以及通過(guò)語(yǔ)音進(jìn)行通知處理中的至少一個(gè)處理。該語(yǔ)音識(shí)別裝置可以用根據(jù)權(quán)利要求1至3中的任何一項(xiàng)所述的語(yǔ)音識(shí)別方法識(shí)別包含在由該語(yǔ)音檢測(cè)裝置所檢測(cè)的語(yǔ)音中的被登記字詞。例如可以由用戶通過(guò)語(yǔ)音輸入郵件內(nèi)容、把該語(yǔ)音轉(zhuǎn)換為語(yǔ)音數(shù)據(jù)、通過(guò)把該語(yǔ)音數(shù)據(jù)附加到電子郵件上而發(fā)送該語(yǔ)音數(shù)據(jù)、接收附加有該語(yǔ)音數(shù)據(jù)的電子郵件、以及再生該語(yǔ)音數(shù)據(jù)而執(zhí)行通過(guò)語(yǔ)音進(jìn)行發(fā)送和接收郵件的處理。例如用戶通過(guò)語(yǔ)音輸入日程安排的內(nèi)容、把該語(yǔ)音轉(zhuǎn)換為語(yǔ)音數(shù)據(jù)、輸入該日程安排的執(zhí)行日期并且用與該執(zhí)行日期相關(guān)的語(yǔ)音數(shù)據(jù)管理該日程安排而執(zhí)行通過(guò)語(yǔ)音管理日程安排的處理。例如用戶通過(guò)語(yǔ)音輸入備忘錄的內(nèi)容、把該語(yǔ)音轉(zhuǎn)換為語(yǔ)音數(shù)據(jù)、以及在用戶需要時(shí)再生該語(yǔ)音數(shù)據(jù)而通過(guò)語(yǔ)音執(zhí)行備忘錄處理。例如通過(guò)用戶輸入通知的內(nèi)容、把該語(yǔ)音轉(zhuǎn)換為語(yǔ)音數(shù)據(jù)、輸入通知時(shí)序、以及按照該通知時(shí)序再生語(yǔ)音數(shù)據(jù)而通過(guò)語(yǔ)音執(zhí)行通知處理。
利用該結(jié)構(gòu),當(dāng)在普通生活條件等等中由用戶發(fā)出不包含被登記字詞的噪聲(即,除了被登記字詞之外的語(yǔ)音)時(shí),對(duì)應(yīng)于與多余字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的聲音模型的似然性被計(jì)算為大于該語(yǔ)音的聲音參數(shù)序列,而對(duì)應(yīng)于與被登記字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的聲音模型的似然性被計(jì)算為較小。根據(jù)該似然性,除了被登記字詞之外的語(yǔ)音可以被識(shí)別為一個(gè)多余字詞,從而可以避免把除了該被登記字詞之外的語(yǔ)音錯(cuò)誤識(shí)別為被登記字詞,并且抑制信息終端的故障。另外,用戶可以僅僅通過(guò)發(fā)出被登記字詞而不實(shí)際操作,通過(guò)語(yǔ)音執(zhí)行發(fā)送和接收郵件的處理、通過(guò)語(yǔ)音管理日程安排的處理、通過(guò)語(yǔ)音進(jìn)行備忘錄處理以及通過(guò)語(yǔ)音進(jìn)行通知處理。
另一方面,為了解決上述問(wèn)題,根據(jù)本發(fā)明的電話通信終端可以連接到公用電話線網(wǎng)絡(luò)或者互聯(lián)網(wǎng)通信網(wǎng)絡(luò),并且包括語(yǔ)音輸入/輸出裝置,用于輸入和輸出語(yǔ)音;語(yǔ)音識(shí)別裝置,用于識(shí)別輸入語(yǔ)音;存儲(chǔ)裝置,用于存儲(chǔ)包括通信方的名字和電話號(hào)碼的個(gè)人信息;屏幕顯示裝置;以及控制裝置,用于控制每個(gè)裝置。該語(yǔ)音輸入/輸出裝置在該通信單元和語(yǔ)音識(shí)別單元中具有各自和獨(dú)立的輸入/輸出系統(tǒng)。也就是說(shuō),該終端包括用于使得用戶通過(guò)語(yǔ)音輸入與電話操作相關(guān)的被登記字詞的語(yǔ)音輸入單元;用于識(shí)別通過(guò)該語(yǔ)音輸入單元輸入的被登記字詞的語(yǔ)音識(shí)別單元;以及具有用于使用戶執(zhí)行通信的語(yǔ)音輸入單元,根據(jù)由該語(yǔ)音識(shí)別電路所識(shí)別的被登記字詞控制到通信線的連接狀態(tài)的通信單元。該語(yǔ)音識(shí)別單元的語(yǔ)音輸入單元和該通信單元的語(yǔ)音輸入單元被獨(dú)立提供。
利用上述結(jié)構(gòu),盡管用戶與相對(duì)方進(jìn)行通信,并且該通信占用通信單元的輸入/輸出系統(tǒng),該用戶的語(yǔ)音可以被輸入到該語(yǔ)音識(shí)別單元,并且該通信單元可以被控制。
另外,為了解決上述問(wèn)題,根據(jù)本發(fā)明的電話通信終端可以連接到公用電話線網(wǎng)絡(luò)或者互聯(lián)網(wǎng)通信網(wǎng)絡(luò),并且包括語(yǔ)音輸入/輸出裝置,用于輸入和輸出語(yǔ)音;語(yǔ)音識(shí)別裝置,用于識(shí)別輸入語(yǔ)音;存儲(chǔ)裝置,用于存儲(chǔ)包通信方的名字和電話號(hào)碼的個(gè)人信息;屏幕顯示裝置;以及控制裝置,用于控制每個(gè)裝置。該存儲(chǔ)裝置分離地預(yù)先存儲(chǔ)包括被登記的人的名字的特定名字的名字詞匯列表;任意電話號(hào)碼的號(hào)碼詞匯列表;在通信過(guò)程中的電話操作的電話呼叫操作詞匯列表;以及對(duì)入局呼叫的電話操作的呼叫接收操作詞匯列表??梢酝ㄟ^(guò)輸入語(yǔ)音由該語(yǔ)音識(shí)別裝置、存儲(chǔ)裝置和控制裝置執(zhí)行與出局呼叫、斷開(kāi)和入局呼叫相關(guān)的所有電話操作。也就是說(shuō),該存儲(chǔ)裝置分別存儲(chǔ)登記特定名字的名字詞匯列表、登記任意電話號(hào)碼的號(hào)碼詞匯列表、登記與在通信過(guò)程中的電話操作相關(guān)的字詞的電話呼叫操作詞匯列表、以及在接收入局呼叫時(shí)登記與電話操作相關(guān)的字詞的呼叫接收操作詞匯列表。該語(yǔ)音識(shí)別裝置選擇根據(jù)由該語(yǔ)音識(shí)別裝置的識(shí)別結(jié)果或者該通信線的狀態(tài)選擇存儲(chǔ)在該存儲(chǔ)裝置中的詞匯列表,參照該詞匯列表,并且通過(guò)該語(yǔ)音輸入/輸出裝置識(shí)別包含在該語(yǔ)音輸入中的字詞。
利用上述結(jié)構(gòu),該詞匯列表可以根據(jù)情況改變?yōu)檫m當(dāng)?shù)牧斜?,從而避免由于在普通生活條件等等中的所造成的作為多余語(yǔ)音的噪聲而出現(xiàn)錯(cuò)誤識(shí)別。
還可以通過(guò)使用該存儲(chǔ)裝置的號(hào)碼詞匯列表以及用于通過(guò)輸入所有十進(jìn)制數(shù)字的連續(xù)發(fā)音由該語(yǔ)音識(shí)別裝置識(shí)別任意電話號(hào)碼的電話號(hào)碼詞匯網(wǎng)絡(luò)來(lái)識(shí)別由預(yù)定數(shù)目的數(shù)字或符號(hào)所形成的號(hào)碼串模式,而實(shí)現(xiàn)識(shí)別電話號(hào)碼的方法。也就是說(shuō),該存儲(chǔ)裝置存儲(chǔ)一系列號(hào)碼詞匯列表,其中對(duì)應(yīng)于所有電話號(hào)碼的數(shù)字的數(shù)字串被登記,并且當(dāng)包含在該輸入語(yǔ)音中的電話號(hào)碼被識(shí)別時(shí),該語(yǔ)音識(shí)別裝置可以參照存儲(chǔ)在該存儲(chǔ)裝置中的系列號(hào)碼詞匯列表。
利用上述結(jié)構(gòu),當(dāng)要識(shí)別一個(gè)電話號(hào)碼時(shí),用戶僅僅必須連續(xù)地發(fā)出對(duì)應(yīng)于該電話號(hào)碼的全部數(shù)字的數(shù)字串,從而短時(shí)間地識(shí)別該電話號(hào)碼。
該屏幕顯示裝置可以具有通知發(fā)音時(shí)序的發(fā)音時(shí)序顯示功能。也就是說(shuō),可以通知該語(yǔ)音識(shí)別裝置處于可以識(shí)別被登記字詞的狀態(tài)中。
利用該結(jié)構(gòu),通過(guò)以由該屏幕顯示裝置所通知的發(fā)音時(shí)序說(shuō)出一個(gè)字詞,用戶可以用適當(dāng)?shù)臅r(shí)序說(shuō)出被登記字詞,從而適當(dāng)?shù)刈R(shí)別該被登記字詞。
根據(jù)由該語(yǔ)音識(shí)別裝置所識(shí)別的輸入語(yǔ)音,可以提供用于執(zhí)行通過(guò)語(yǔ)音發(fā)送和接收郵件的處理、通過(guò)語(yǔ)音管理日程安排的處理、通過(guò)語(yǔ)音進(jìn)行備忘錄處理以及通過(guò)語(yǔ)音進(jìn)行通知處理中的至少一個(gè)處理。
利用該結(jié)構(gòu),用戶可以通過(guò)說(shuō)出被登記字詞而不進(jìn)行實(shí)際操作來(lái)執(zhí)行通過(guò)語(yǔ)音發(fā)送和接收郵件的處理、通過(guò)語(yǔ)音管理日程安排的處理以及通過(guò)語(yǔ)音進(jìn)行通知處理中的至少一個(gè)處理。
該語(yǔ)音識(shí)別裝置可以在根據(jù)任何一項(xiàng)權(quán)利要求1、2和3中的語(yǔ)音識(shí)別方法中識(shí)別包含在輸入語(yǔ)音中的被登記字詞。
利用上述結(jié)構(gòu),當(dāng)用戶發(fā)出在普通生活條件等等中造成的不包含被登記字詞的噪聲(即,處理被登記字詞之外的語(yǔ)音)時(shí),對(duì)應(yīng)于與多余字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的聲音模型的似然性被計(jì)算為用于該語(yǔ)音的聲音參數(shù)序列的較大數(shù)值,并且對(duì)應(yīng)于與被登記字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的聲音模型的似然性被計(jì)算為較小數(shù)值。根據(jù)該似然性,除了被登記字詞之外的語(yǔ)音被識(shí)別為一個(gè)多余字詞,從而可以避免把除了該被登記字詞之外的語(yǔ)音錯(cuò)誤識(shí)別為被登記字詞,并且抑制電話通信終端的故障。
圖1為根據(jù)本發(fā)明第一實(shí)施例的遙控器的方框圖;圖2示出在圖1中所示的遙控器的示意結(jié)構(gòu);圖3為由圖2中所示的遙控器所執(zhí)行的算術(shù)處理的流程圖;圖4為在圖3中所示的算術(shù)處理中在LCD顯示設(shè)備上顯示的圖像的示意圖;圖5為在圖3中所示的算術(shù)處理中執(zhí)行的語(yǔ)音識(shí)別處理的示意圖;圖6為在圖5中所示的語(yǔ)音識(shí)別處理中所用的詞匯網(wǎng)絡(luò)的示意圖;圖7為示出一個(gè)詞匯網(wǎng)絡(luò)的示意圖,其中在圖6中所示的多余字詞模型是通過(guò)均衡所有音素模型所獲得的虛擬音素模型;圖8為一個(gè)詞匯網(wǎng)絡(luò)的示意圖,其中在圖6中所示的多余字詞模型是一個(gè)自循環(huán)形成元音的音素;圖9為一個(gè)詞匯網(wǎng)絡(luò)的示意圖,其中在圖6中所示的多余字詞模型是通過(guò)均衡所有音素模型所獲得的虛擬音素模型與自循環(huán)形成元音的音素的組合;圖10為一個(gè)詞匯網(wǎng)絡(luò)的示意圖,其中在圖6中所示的多余字詞模型是一組形成元音的音素;圖11為沒(méi)有多余字詞模型的一個(gè)詞匯網(wǎng)絡(luò)的示意圖;圖12為根據(jù)本發(fā)明第二實(shí)施例的信息終端的方框圖;圖13示出在圖12中所示的信息終端的示意結(jié)構(gòu);圖14為由在圖13中所示的信息終端所執(zhí)行的算術(shù)處理的流程圖;圖15為在圖14中所示的算術(shù)處理中在LCD顯示設(shè)備上顯示的圖像的示意圖;圖16為由在圖13中所示的信息終端所執(zhí)行的算術(shù)處理的流程圖;圖17為由在圖13中所示的信息終端所執(zhí)行的算術(shù)處理的流程圖;圖18為在圖17中所示的算術(shù)處理中在LCD顯示設(shè)備上顯示的圖像的示意圖;圖19為在圖17中所示的算術(shù)處理中在LCD顯示設(shè)備上顯示的圖像的示意圖;圖20為由在圖13中所示的信息終端所執(zhí)行的算術(shù)處理的流程圖;圖21為在圖20中所示的算術(shù)處理中在LCD顯示設(shè)備上顯示的圖像的示意圖;圖22為由在圖13中所示的信息終端所執(zhí)行的算術(shù)處理的流程圖;圖23為根據(jù)本發(fā)明第三實(shí)施例的具有語(yǔ)音識(shí)別功能的電話通信終端的方框圖;圖24為作為本發(fā)明第三實(shí)施例的一個(gè)變型的具有語(yǔ)音識(shí)別功能的電話通信終端的方框圖;圖25為由在圖23中所示的中央控制電路所執(zhí)行的算術(shù)處理的流程圖;圖26為在圖25中所示的算術(shù)處理中在LCD顯示設(shè)備上顯示的圖像的示意圖;圖27為由在圖23中所示的中央控制電路所執(zhí)行的算術(shù)處理的流程圖;圖28為在圖27中所示的算術(shù)處理中在LCD顯示設(shè)備上顯示的圖像的示意圖;圖29為在圖23中所示的中央控制電路所執(zhí)行的算術(shù)處理的流程圖;以及圖30為由在圖23中所示的中央控制電路所執(zhí)行的算術(shù)處理的流程圖。
具體實(shí)施例方式
下面通過(guò)參照附圖描述本發(fā)明的實(shí)施例。圖1為根據(jù)本發(fā)明第一實(shí)施例的遙控器的主要方框圖。在圖1中所示的遙控器包括用于識(shí)別用戶語(yǔ)音的遙控器的本體,即,遙控器本體1;以及用于根據(jù)識(shí)別結(jié)果發(fā)出作為紅外信號(hào)控制信號(hào)的紅外發(fā)射單元2。該用戶的語(yǔ)音被從遙控器本體1的語(yǔ)音輸入設(shè)備(話筒3)輸入,通過(guò)放大器4發(fā)送,并且被A/D轉(zhuǎn)換器5轉(zhuǎn)換為數(shù)字化的聲音參數(shù)(例如,頻譜等等)。該輸入的模擬語(yǔ)音不被指定,但是通常被按照從8KHz至16KHz范圍的特定頻率采樣和數(shù)字化。在語(yǔ)音指令識(shí)別電路6中,該數(shù)字化的聲音參數(shù)的似然性被相對(duì)于用于每個(gè)語(yǔ)音單元的聲音參數(shù)而計(jì)算,該語(yǔ)音單元是用于被存儲(chǔ)和登記在語(yǔ)音指令信息存儲(chǔ)器7中的被登記詞匯列表的每個(gè)字詞的構(gòu)成單元。也就是說(shuō),在該語(yǔ)音指令識(shí)別電路6中,為在語(yǔ)音指令識(shí)別電路6中的每個(gè)構(gòu)成單元(在下文中稱為語(yǔ)音單元),計(jì)算在該被登記詞匯列表中并且存儲(chǔ)和登記在用于該數(shù)字化的聲音參數(shù)的語(yǔ)音指令信息存儲(chǔ)器7中的字詞的似然性(在下文中稱為被登記字詞),并且該似然性的最大累加值被提取作為最接近該用戶的語(yǔ)音的被登記字詞。在語(yǔ)音指令識(shí)別電路6中,同時(shí)為該數(shù)字化的語(yǔ)音參數(shù)計(jì)算被存儲(chǔ)和登記在語(yǔ)音指令信息存儲(chǔ)器7中的多余字詞模型的似然性。當(dāng)該多余字詞模型的似然性大于被登記字詞的似然性時(shí),則認(rèn)為不被登記字詞已經(jīng)從該數(shù)字化的聲音參數(shù)中提取。
一個(gè)語(yǔ)音單元可以是一個(gè)音節(jié)、一個(gè)音素、一個(gè)半音節(jié)、一個(gè)雙音(兩對(duì)音素)、三音(三對(duì)音素)等等,但是為了便于說(shuō)明,下文所述的是一個(gè)音素被用作為一個(gè)語(yǔ)音單元。
在該語(yǔ)音指令信息存儲(chǔ)器7中,存儲(chǔ)對(duì)應(yīng)于每個(gè)被登記字詞的控制代碼,從語(yǔ)音指令信息存儲(chǔ)器7調(diào)用對(duì)應(yīng)于由語(yǔ)音指令識(shí)別電路6所提取的(即,被語(yǔ)音識(shí)別的)被登記字詞的控制代碼,并且通過(guò)中央控制電路8發(fā)送到紅外發(fā)射單元2的IRED驅(qū)動(dòng)控制電路9。該IRED驅(qū)動(dòng)控制電路9調(diào)用對(duì)應(yīng)于來(lái)自IRED編碼信息存儲(chǔ)器10的控制代碼的IRED代碼,并且把其作為一個(gè)紅外信號(hào)從IRED 11發(fā)出。
在此時(shí),用于同時(shí)把語(yǔ)音識(shí)別結(jié)果通知給用戶的裝置通過(guò)把其在LCD顯示設(shè)備12上顯示而用視覺(jué)通知一個(gè)識(shí)別結(jié)果,把該識(shí)別結(jié)果發(fā)送到應(yīng)答語(yǔ)音控制電路13,調(diào)用對(duì)應(yīng)于來(lái)自應(yīng)答語(yǔ)音信息存儲(chǔ)器14的識(shí)別結(jié)果的應(yīng)答語(yǔ)音數(shù)據(jù),并且通過(guò)D/A轉(zhuǎn)換器15和放大器16從擴(kuò)音器17作為模擬語(yǔ)音來(lái)通過(guò)聽(tīng)覺(jué)通知用戶。
該紅外發(fā)射單元2被提供一個(gè)光敏元件18,并且當(dāng)需要使用不登記在IRED編碼信息存儲(chǔ)器10中的紅外代碼時(shí),可以通過(guò)把一個(gè)要使用的紅外代碼發(fā)送到光敏元件18,而通過(guò)光敏元件接口電路19把該紅外代碼添加到IRED編碼信息存儲(chǔ)器10。
要被使用的硬件沒(méi)有特別的限制,只要它具有如圖1中所示的基本功能即可。在下文的描述中,說(shuō)明如圖2中所示的被用作為遙控器本體1的通常在市場(chǎng)上銷(xiāo)售的個(gè)人計(jì)算機(jī)。圖3為由在圖2中所示的語(yǔ)音識(shí)別遙控器所執(zhí)行的算術(shù)處理并且根據(jù)用戶的語(yǔ)音發(fā)送紅外代碼的流程圖。在該流程圖中,不設(shè)置用于通信的步驟,但是在該算術(shù)處理中獲得的信息被更新,并且存儲(chǔ)在該存儲(chǔ)設(shè)備,并且在任何時(shí)候從該存儲(chǔ)設(shè)備讀取必要的信息。該算術(shù)處理是當(dāng)啟動(dòng)該遙控器時(shí)執(zhí)行的一個(gè)處理。在步驟S1中,讀取由話筒3檢測(cè)的語(yǔ)音,并且執(zhí)行如下文所述的識(shí)別該語(yǔ)音是否包含作為被登記字詞的啟動(dòng)密碼或者噪聲和除了該啟動(dòng)密碼之外的語(yǔ)音(即,多余字詞)的語(yǔ)音識(shí)別處理。也就是說(shuō),通過(guò)語(yǔ)音輸入一個(gè)啟動(dòng)密碼,通知要操作該遙控器的人在該遙控器處。一個(gè)啟動(dòng)密碼可以使用用戶喜好的字詞、用戶的語(yǔ)音等等任意地預(yù)先設(shè)置。但是,當(dāng)持續(xù)地操作該語(yǔ)音識(shí)別功能時(shí),需要防止由于在普通生活條件下由話筒3所接收的噪聲導(dǎo)致的故障。因此,最好使用不常用的一個(gè)字詞等等。希望使用具有3個(gè)或更多個(gè)音節(jié)但是小于20個(gè)音節(jié)的字詞。另外,希望使用由5個(gè)或更多個(gè)以及15個(gè)和更少的音節(jié)所構(gòu)成的字詞。例如,可以使用例如“芝麻開(kāi)門(mén)”等等這樣的字詞。然后,在步驟S2中,確定在步驟S1中是否已經(jīng)識(shí)別的該啟動(dòng)密碼被包含在該語(yǔ)音中。如果該啟動(dòng)密碼被包含(是),則該控制進(jìn)行到步驟S3,否則(如果為“否”),則該控制再次進(jìn)行到步驟S1。因此,如果除了啟動(dòng)密碼之外的一個(gè)字詞,即僅僅包含非啟動(dòng)密碼的噪聲和語(yǔ)音被從話筒3輸入時(shí),它們被識(shí)別為多余字詞,并且假設(shè)周?chē)鷽](méi)有用戶,則該系統(tǒng)進(jìn)入等待輸入語(yǔ)音的狀態(tài)。
在步驟S3中,由話筒3所檢測(cè)的語(yǔ)音被讀取,并且執(zhí)行在下文中所述的識(shí)別該語(yǔ)音是否包含作為被登記字詞的目標(biāo)設(shè)備的名稱或者僅僅是噪聲和除了目標(biāo)設(shè)備的名稱之外的語(yǔ)音(即,多余字詞)的語(yǔ)音識(shí)別處理。在此用于選擇設(shè)備以及例如目標(biāo)設(shè)備這樣的功能的字詞(被登記字詞)可以是“電視”、“視頻”、“空調(diào)”、“音頻”、“燈光”、“窗簾”、“電話”、“定時(shí)器”、“電子郵件”、“語(yǔ)音備忘錄”等等。如果輸入除了被登記字詞之外的字詞,即如果僅僅輸入包含被登記字詞的字詞或噪聲,則它們被識(shí)別為多余字詞,并且該系統(tǒng)進(jìn)入等待新的目標(biāo)設(shè)備的名稱的狀態(tài)。
在步驟S4中,確定目標(biāo)設(shè)備的名稱是否包含在該語(yǔ)音中。如果目標(biāo)設(shè)備的名稱被包含(是),則該控制進(jìn)行到步驟S6。否則(否),該控制再次進(jìn)行到步驟S3。因此,如果識(shí)別出由話筒3所檢測(cè)的語(yǔ)音包含一個(gè)啟動(dòng)密碼,則進(jìn)入用戶選擇目標(biāo)設(shè)備的模式,并且該系統(tǒng)進(jìn)入等待語(yǔ)音輸入直到輸入目標(biāo)設(shè)備等等的名稱的狀態(tài)。如果已經(jīng)經(jīng)過(guò)預(yù)定時(shí)間沒(méi)有通過(guò)語(yǔ)音輸入要被識(shí)別的被登記字詞,則該控制返回到識(shí)別啟動(dòng)密碼的模式(步驟S1和S2)(沒(méi)有在圖3示出),并且該系統(tǒng)進(jìn)入等待語(yǔ)音輸入直到輸入啟動(dòng)密碼的狀態(tài),即待機(jī)狀態(tài)。
在步驟S6中,由話筒3所檢測(cè)的語(yǔ)音被讀取,并且執(zhí)行如下文中所述的識(shí)別該語(yǔ)音是否包含用于目標(biāo)設(shè)備的作為被登記字詞的指令內(nèi)容或者僅僅為噪聲和除了該指令內(nèi)容之外的語(yǔ)音的語(yǔ)音識(shí)別處理。也就是說(shuō),當(dāng)用戶選擇目標(biāo)設(shè)備時(shí),進(jìn)入可以控制該目標(biāo)設(shè)備的指令內(nèi)容的模式。例如,當(dāng)選擇“電視”作為目標(biāo)設(shè)備時(shí),關(guān)于電視的操作的圖像被顯示在LCD顯示設(shè)備12,如圖4中所示,并且進(jìn)入可以指定電源開(kāi)/關(guān)操作、頻道號(hào)的選擇、廣播電臺(tái)的選擇、音量調(diào)節(jié)等等的模式。
然后,在步驟S7中,確定是否已經(jīng)在步驟S6中識(shí)別目標(biāo)設(shè)備的指令內(nèi)容包含在該語(yǔ)音內(nèi)。如果該目標(biāo)設(shè)備的指令內(nèi)容被包含(是),則控制進(jìn)行到步驟S8。否則(否),控制再次進(jìn)行到步驟S6。也就是說(shuō),該系統(tǒng)進(jìn)入等待可控制的指令內(nèi)容的輸入的狀態(tài)。
然后,在步驟S8中,對(duì)應(yīng)于在步驟S6中識(shí)別的指令內(nèi)容的紅外代碼被發(fā)送到紅外發(fā)射單元2。也就是說(shuō),當(dāng)通過(guò)語(yǔ)音輸入該指令內(nèi)容時(shí),根據(jù)該指令內(nèi)容的識(shí)別結(jié)果調(diào)用相應(yīng)的紅外代碼,并且該紅外代碼被從紅外發(fā)射單元2發(fā)送到該目標(biāo)設(shè)備。在該模式中,當(dāng)一個(gè)指令和除了可控制的指令內(nèi)容之外的噪聲被輸入時(shí),它們被識(shí)別為多余字詞。
在步驟S9中,確定在步驟S6中識(shí)別的指令內(nèi)容是否表示結(jié)束(例如“終止”)。如果它們表示結(jié)束(是),則該算術(shù)處理被結(jié)束。否則(否),控制進(jìn)行到步驟S3。也就是說(shuō),如果在該模式中通過(guò)語(yǔ)音輸入表示結(jié)束的控制指令,例如“終止”,則控制返回到選擇可控制的目標(biāo)設(shè)備的模式(步驟S3和S4)。盡管在預(yù)定時(shí)間之后不通過(guò)語(yǔ)音輸入與用于識(shí)別的設(shè)備控制相關(guān)的被登記字詞,控制返回到選擇該目標(biāo)設(shè)備的模式(沒(méi)有在圖3中示出)。
在步驟S9中,確定在步驟S6中識(shí)別的指令內(nèi)容是否表示待機(jī)(例如,“待機(jī)”)。如果該字詞表示“待機(jī)”(是),則該控制進(jìn)行到步驟S1。否則(否),控制進(jìn)行到步驟S10。也就是說(shuō),如果在選擇該目標(biāo)設(shè)備的模式中通過(guò)語(yǔ)音輸入例如“待機(jī)”這樣的要進(jìn)入該語(yǔ)音識(shí)別遙控器的指令的字詞時(shí),則該控制返回到密碼接收模式。
在步驟S10中,確定在步驟S6中識(shí)別的指令內(nèi)容是否表示稱為電源關(guān)閉狀態(tài)的字詞(例如,“芝麻關(guān)門(mén)”)。如果這是表示關(guān)閉狀態(tài)的字詞(是),則該算術(shù)處理結(jié)束。否則(否),控制進(jìn)行到步驟S10。也就是說(shuō),如果用戶通過(guò)語(yǔ)音輸入“芝麻關(guān)門(mén)”,則該個(gè)人計(jì)算機(jī)可以被斷電,從而完全終止該系統(tǒng)。
當(dāng)該系統(tǒng)被重新啟動(dòng),并且激活中央控制電路8的操作系統(tǒng)時(shí),僅僅與該系統(tǒng)相關(guān)的應(yīng)用軟件被激活。當(dāng)暫停該操作系統(tǒng)時(shí),可以通過(guò)實(shí)際按下該系統(tǒng)的電源按鍵來(lái)執(zhí)行該激活。
圖5示出使用在圖3中所示的步驟S1、S3和S6中執(zhí)行的語(yǔ)音識(shí)別處理中的隱藏的馬爾可夫模型(在下文中簡(jiǎn)稱為HMM)的處理的原理。當(dāng)執(zhí)行該語(yǔ)音識(shí)別處理時(shí),首先由話筒3所檢測(cè)的語(yǔ)音被通過(guò)傅利葉變換或者小波變換轉(zhuǎn)換為數(shù)字頻譜,并且使用例如對(duì)該頻譜使用線性預(yù)測(cè)分析、倒譜分析等等這樣的語(yǔ)音模擬方法來(lái)對(duì)該語(yǔ)音數(shù)據(jù)進(jìn)行特性化。然后,對(duì)于該特性化的語(yǔ)音數(shù)據(jù),使用維特比算法預(yù)先計(jì)算在該語(yǔ)音識(shí)別處理中讀取的詞匯網(wǎng)絡(luò)20中登記的每個(gè)字詞的聲音模型21的似然性。該被登記字詞在對(duì)應(yīng)于語(yǔ)音單元中的一個(gè)串聯(lián)連接(語(yǔ)音單元標(biāo)簽序列)的HMM的一個(gè)串聯(lián)網(wǎng)絡(luò)中模擬該被登記字詞,詞匯網(wǎng)絡(luò)20被模擬為對(duì)應(yīng)于登記在該被登記詞匯列表中的被登記字詞組的一個(gè)串聯(lián)連接網(wǎng)絡(luò)。每個(gè)被登記字詞用一個(gè)音素的語(yǔ)音單元等等來(lái)構(gòu)成,并且對(duì)每個(gè)語(yǔ)音單元計(jì)算該似然性。當(dāng)檢測(cè)用戶的發(fā)音結(jié)束時(shí),具有最大的似然性累計(jì)值的被登記字詞被從該被登記詞匯列表中檢測(cè),并且該被登記字詞被作為包含在該語(yǔ)音而識(shí)別的被登記字詞而輸出。
在本發(fā)明中,如圖6中所示,與代表一個(gè)字詞的HMM中相同,用于識(shí)別多余字詞的虛擬模型23與被登記字詞的詞匯網(wǎng)絡(luò)22一同設(shè)置。作為用于識(shí)別一個(gè)多余字詞的虛擬模型23,有由H.Boulard,B.D’hoore和J.M.Boite在“Optimizing Recognition and Rejection Performance inWordspotting Systems”P(pán)roc.ICASSP,Adelaide,Australia,pp.I-373-376,1994中提出的干擾模型方法等等。因此,當(dāng)除了被控制的字詞之外的一個(gè)對(duì)象,即不包含被登記字詞的發(fā)音和噪聲被作為語(yǔ)音而輸入,對(duì)應(yīng)于多余字詞的虛擬模型的似然性被設(shè)置為比所有被登記字詞的似然性更大,從而選擇具有最大似然性的虛擬模型,并且成功構(gòu)造能夠正確地確定多余字詞的輸入的系統(tǒng)。由于使用用于識(shí)別多余字詞的虛擬模型23,因此盡管分配拒絕功能,也可以形成一個(gè)小的便攜式遙控器,而不增加在識(shí)別處理的實(shí)踐水平上的計(jì)算負(fù)擔(dān)。
在僅僅使用由被登記字詞的詞匯網(wǎng)絡(luò)22所形成的詞匯網(wǎng)絡(luò)20而不使用用于識(shí)別多余字詞的虛擬模型23的常規(guī)方法中,必然存在由于未知字詞和除了要被識(shí)別的字詞之外的多余字詞或者除了該系統(tǒng)預(yù)期之外的發(fā)音而導(dǎo)致故障。具體來(lái)說(shuō),在持續(xù)執(zhí)行語(yǔ)音識(shí)別處理的狀態(tài)中,可能存在由于在使用的普通生活條件中所造成的噪聲,例如朋友之間的交談、在該遙控器附近行走的人的腳步聲、寵物的叫聲等等、在廚房做飯的噪聲等等,經(jīng)常導(dǎo)致出現(xiàn)錯(cuò)誤識(shí)別的問(wèn)題。如果對(duì)被登記字詞的匹配確定的許可范圍被嚴(yán)格地設(shè)置,以減小錯(cuò)誤識(shí)別,則可以實(shí)際減小錯(cuò)誤識(shí)別,但是要被識(shí)別的目標(biāo)字詞通常還也被拒絕,從而需要重復(fù)地發(fā)音并且對(duì)用戶造成麻煩。另外,有一種在被登記詞匯列表中列出多余字詞字詞的方法,但是列出所有的多余字詞是不實(shí)際的,因?yàn)樗@得的被登記詞匯列表太大,并且所需的計(jì)算量非常大。
圖6示出在圖3中所示的步驟S4中執(zhí)行的語(yǔ)音識(shí)別處理中的目標(biāo)設(shè)備的名稱的詞匯網(wǎng)絡(luò)。該詞匯網(wǎng)絡(luò)20代表用于選擇目標(biāo)設(shè)備的被登記字詞,即目標(biāo)設(shè)備的名稱22和多余字詞模型23。更加具體來(lái)說(shuō),每個(gè)被登記字詞被構(gòu)造為如圖7中所示,代表相應(yīng)的音素標(biāo)簽序列。該多余字詞模型23被形成為通過(guò)均衡所有音素模型而獲得的虛擬音素模型,并且具有類(lèi)似于普通人的語(yǔ)音的音素HMM模型的拓?fù)浣Y(jié)構(gòu)。通過(guò)均衡所有可用音素所獲得的虛擬音素模型如下產(chǎn)生。也就是說(shuō),使用所有音素作為HMM產(chǎn)生一個(gè)模型,該HMM被形成為多個(gè)狀態(tài)轉(zhuǎn)移序列,并且每個(gè)狀態(tài)通過(guò)混合的高斯分布而形成。然后,要在音素之間共享的一組高斯分布被從混合的高斯分布中選擇,用對(duì)每個(gè)音素加權(quán)的混合高斯分布進(jìn)行修改,并且通過(guò)均衡所有可用的音素而獲得一個(gè)虛擬音素模型。具有所有被均衡的可用音素的虛擬音素模型不限于來(lái)自一個(gè)集群的產(chǎn)物,所有語(yǔ)音單元被分為多個(gè)(例如,3至5個(gè)單元)集群,并且一個(gè)模型可以從該集群中形成。因此,當(dāng)由一個(gè)用戶說(shuō)出一個(gè)被登記字詞時(shí),該被登記字詞的似然性必然較大。但是,當(dāng)除了被登記字詞之外的一個(gè)字詞被說(shuō)出時(shí),結(jié)果虛擬音素模型的似然性變得更大,因此增強(qiáng)識(shí)別為多余字詞的可能性。例如,當(dāng)作為例如“電視”、“視頻”、“空調(diào)”、“燈光”、“音頻”等等這樣的被登記字詞被登記時(shí),如果沒(méi)有在圖7中所示的被登記字詞的詞匯網(wǎng)絡(luò)22中給出的字詞“takibi”,并且如果沒(méi)有多余字詞模型組,則作為在該被登記字詞中具有類(lèi)似的音素結(jié)構(gòu)的字詞的所需字詞的似然性(例如,在圖7中所示的被登記詞匯列表中的“terebi”)為最大,并且導(dǎo)致錯(cuò)誤識(shí)別。但是,如果設(shè)置多余字詞,則根據(jù)概率理論,該虛擬音素模型的似然性非常有可能為最大值,并且識(shí)別為一個(gè)多余字詞可以在較大程度上減少錯(cuò)誤識(shí)別。
在圖8中所示的多余字詞模型示出形成元音的音素的自循環(huán)。也就是說(shuō),該多余字詞模型是對(duì)應(yīng)于元音的音素的一組HMM。對(duì)于數(shù)字化的聲音參數(shù)序列的每個(gè)聲音參數(shù)計(jì)算對(duì)應(yīng)于該元音的音素的HMM的似然性,累計(jì)最大值,并且獲得多余字詞模型的似然性。這基于幾乎所有字詞包含元音的特性,并且音素的分析可以通過(guò)輔音、元音、摩擦音、爆破音等等來(lái)表示,把較大的聲音能量分配給元音。也就是說(shuō),一個(gè)多余字詞模型的似然性被計(jì)算為所有字詞的元音的連續(xù)聲音。因此,當(dāng)由用戶發(fā)出一個(gè)被登記字詞時(shí),例如輔音這樣的除了元音之外的音素變得不適用于多余字詞模型。因此,一個(gè)多余字詞模型的似然性低于被登記字詞的似然性,結(jié)果,增加識(shí)別為被登記字詞的識(shí)別概率。但是,當(dāng)除了被登記字詞之外的一個(gè)字詞被發(fā)出時(shí),對(duì)應(yīng)于一個(gè)被登記字詞的音素模型表示用于例如輔音等等這樣的除了元音之外的音素的較低數(shù)值。因此,表示元音的連續(xù)聲音的多余字詞模型的似然性較高,并且作為多余字詞的識(shí)別的概率較高,從而減少錯(cuò)誤識(shí)別。當(dāng)難以獲得上述虛擬音素模型的標(biāo)簽序列時(shí),并且當(dāng)使用由音素軟件所形成的現(xiàn)有語(yǔ)音識(shí)別軟件時(shí),使用該方法。
根據(jù)實(shí)際使用的情況,當(dāng)多余字詞識(shí)別率較低并且當(dāng)該識(shí)別率太高以及目標(biāo)指令字可以被識(shí)別為一個(gè)多余字詞時(shí),可以通過(guò)把通過(guò)使用元音音素由虛擬音素模型和多余字詞模型為一個(gè)多余字詞模型獲得的似然性乘以一個(gè)適當(dāng)?shù)囊蜃佣鴪?zhí)行識(shí)別率的優(yōu)化。
(實(shí)施例1)下面描述本發(fā)明的第一實(shí)施例。
在該實(shí)施例中,如圖7中所示,通過(guò)均衡所有音素模型所獲得的虛擬音素模型23被提供作為一個(gè)多余字詞模型。該音素模型23和在表1中所述的被登記字詞列表,即被登記字詞的詞匯網(wǎng)絡(luò)22,被并列地提供在該詞匯網(wǎng)絡(luò)20中。為一個(gè)語(yǔ)音遙控器在圖3中所示的步驟S3的語(yǔ)音識(shí)別處理中讀取詞匯網(wǎng)絡(luò)20。作為多余字詞,通過(guò)語(yǔ)音對(duì)每個(gè)字詞5次輸入“takibi”、“takeo”和“fami-com”。結(jié)果,識(shí)別為多余字詞的概率,即正確識(shí)別為不被登記字詞的概率為100%。為了檢查目標(biāo)字詞,即例如“terebi”,“bideo”,“eakon”,“shoumei”和“oodeo”這樣的字詞的識(shí)別率,每個(gè)字詞被發(fā)音10次,并且對(duì)于所有這些字詞的結(jié)果正確識(shí)別率為94%。
表1
(實(shí)施例2)下面描述本發(fā)明的第二實(shí)施例。
在該實(shí)施例中,如圖8中所示,由對(duì)應(yīng)于元音的音素的HMM所構(gòu)成的自循環(huán)模型23’,即“a”、“i”、“u”、“e”和“o”被作為多余字詞模型而提供。該自循環(huán)模型23’和在表1中所述的被登記字詞列表,即被登記字詞的詞匯網(wǎng)絡(luò)22被并列地提供者詞匯網(wǎng)絡(luò)20中。為一個(gè)語(yǔ)音遙控器在圖3中所示的步驟S3的語(yǔ)音識(shí)別處理中讀取該詞匯網(wǎng)絡(luò)20。作為多余字詞,對(duì)每個(gè)字詞5遍地通過(guò)語(yǔ)音輸入“takibi”、“takeo”和“fami-com”。結(jié)果,識(shí)別為多余字詞的概率,即正確識(shí)別為不被登記字詞的概率為100%。為了檢查目標(biāo)字詞的識(shí)別率,即例如“terebi”、“bideo”、“eakon”、“shoumei”和“oodeo”這樣的被登記字詞分別被發(fā)音10次,并且對(duì)于所有這些字詞的結(jié)果正確識(shí)別率為90%。
(實(shí)施例3)下面描述本發(fā)明的第三實(shí)施例。
在該實(shí)施例中,與在圖7中所示的第一實(shí)施例相同,通過(guò)均衡所有音素模型所獲得的虛擬模型23被提供作為一個(gè)多余字詞模型。該音素模型23和在表1中所述的被登記字詞列表,即被登記字詞的詞匯網(wǎng)絡(luò)22被并行地提供在詞匯網(wǎng)絡(luò)20中。為一個(gè)語(yǔ)音遙控器,在圖3中所示的步驟S3中的語(yǔ)音識(shí)別處理例程中讀取詞匯網(wǎng)絡(luò)20。作為多余字詞,對(duì)于每個(gè)字詞10遍地通過(guò)語(yǔ)音輸入“a,i,u,e,o”、“eeto”、“keibi”、“ehen”、“shouchi”和“oodekoron”。結(jié)果,識(shí)別為多余字詞的概率,即正確識(shí)別為不被登記字詞的概率為92%。
(實(shí)施例4)
下面描述本發(fā)明的第四實(shí)施例。
在該實(shí)施例中,與在圖8中所示的第二實(shí)施例相同,由對(duì)應(yīng)于元音音素(即,“a”,“i”,“u”,“e”和“o”)的HMM所構(gòu)成的自循環(huán)模型23’被作為多余字詞模型而提供。該自循環(huán)模型23’和在表1中所述的被登記字詞列表,即被登記字詞的詞匯網(wǎng)絡(luò)22被并列地提供在詞匯網(wǎng)絡(luò)20中。為一個(gè)語(yǔ)音遙控器,在圖3中所示的步驟S3中的語(yǔ)音識(shí)別處理中讀取該詞匯網(wǎng)絡(luò)20。作為多余字詞,對(duì)于每個(gè)字詞10遍地通過(guò)語(yǔ)音輸入“a,i,u,e,o”、“eeto”、“keibi”、“ehen”、“shouchi”和“oodekoron”。結(jié)果,識(shí)別為多余字詞的概率,即識(shí)別為不被登記字詞的概率為93%。
(實(shí)施例5)下面描述本發(fā)明的第五實(shí)施例。
在該實(shí)施例中,如圖9中所述,通過(guò)均衡所有音素模型所獲得的音素模型23和由對(duì)應(yīng)于音素“a”、“i”、“u”、“e”和“o”的HMM所構(gòu)成的自循環(huán)模型23’被提供作為多余字詞模型。該模型22和23以及在表1中所述的被登記字詞列表,即被登記字詞的詞匯網(wǎng)絡(luò)22被并列地提供在詞匯網(wǎng)絡(luò)20中。為語(yǔ)音遙控器,在圖3中所示的步驟S103中的語(yǔ)音識(shí)別處理例程中讀取該詞匯網(wǎng)絡(luò)。作為多余字詞,對(duì)于每個(gè)字詞10遍地通過(guò)語(yǔ)音輸入“a,i,u,e,o”、“eeto”、“keibi”、“ehen”、“shouchi”和“oodekoron”。結(jié)果,識(shí)別為多余字詞的概率,即識(shí)別為不被登記字詞的概率為100%。為了檢查目標(biāo)字詞,即例如“terebi”,“bideo”,“eakon”,“shoumei”和“oodeo”這樣的字詞的識(shí)別率,每個(gè)字詞被發(fā)音10次,并且對(duì)于所有這些字詞的結(jié)果正確識(shí)別率為88%。
(實(shí)施例6)下面描述本發(fā)明的第六實(shí)施例。
在該實(shí)施例中,如圖10中所述,對(duì)應(yīng)于音素“a”、“i”、“u”、“e”和“o”的HMM 23”,即除了該自循環(huán)之外在圖8中所示的多余字詞模型被提供作為多余字詞模型。該自循環(huán)模型23”和在表1中所述的被登記字詞列表,即被登記字詞的詞匯網(wǎng)絡(luò)22被并列地提供在詞匯網(wǎng)絡(luò)20中。為語(yǔ)音遙控器,在圖3中所示的步驟S3中的語(yǔ)音識(shí)別處理例程中讀取該詞匯網(wǎng)絡(luò)20。作為多余字詞,對(duì)于每個(gè)字詞10遍地通過(guò)語(yǔ)音輸入“a,i,u,e,o”、“eeto”、“keibi”、“ehen”、“shouchi”和“oodekoron”。結(jié)果,識(shí)別為多余字詞的概率,即識(shí)別為不被登記字詞的概率為23%。
(對(duì)比例1)下面描述根據(jù)本發(fā)明的第一對(duì)比例。
在該對(duì)比例中,如圖10中所述,由在表1中所述的被登記字詞列表所構(gòu)成的詞匯網(wǎng)絡(luò)20,即不使用虛擬模型來(lái)識(shí)別多余字詞模型的被登記字詞的詞匯網(wǎng)絡(luò)22被讀取到在圖3中所示的步驟S3中的語(yǔ)音識(shí)別處理例程,以準(zhǔn)備該語(yǔ)音識(shí)別遙控器。然后,作為多余字詞,通過(guò)語(yǔ)音對(duì)每個(gè)字詞5次輸入“takibi”、“takeo”和“famikom”。結(jié)果,“takibi”被完全錯(cuò)誤識(shí)別為“terebi”,“takeo”被完全錯(cuò)誤識(shí)別為“bideo”,并且“fami-com”被完全錯(cuò)誤識(shí)別為“eakon”。因此,識(shí)別為多余字詞的概率,即沒(méi)有錯(cuò)誤識(shí)別為不被登記字詞的概率為0%。為了檢查目標(biāo)字詞,即例如“terebi”,“bideo”,“eakon”,“shoumei”和“oodeo”這樣的字詞的識(shí)別率,每個(gè)字詞被發(fā)音10次,并且對(duì)于所有這些字詞的結(jié)果正確識(shí)別率為98%。
(對(duì)比例2)下面描述根據(jù)本發(fā)明的第二對(duì)比例。
在該對(duì)比例中,與第一對(duì)比例相同,如圖11中所述,由在表1中所述的被登記字詞列表所構(gòu)成的詞匯網(wǎng)絡(luò)20,即不使用虛擬模型來(lái)識(shí)別多余字詞模型的被登記字詞的詞匯網(wǎng)絡(luò)22被讀取到在圖3中所示的步驟S3中的語(yǔ)音識(shí)別處理例程,以準(zhǔn)備該語(yǔ)音識(shí)別遙控器。然后,作為多余字詞,對(duì)于每個(gè)字詞10遍地通過(guò)語(yǔ)音輸入“a,i,u,e,o”、“eeto”、“keibi”、“ehen”、“shouchi”和“oodekoron”。結(jié)果,“a,i,u,e,o”容易被錯(cuò)誤識(shí)別為“bideo”,“eeto”容易被錯(cuò)誤識(shí)別為“eakon”,“keibi”容易被錯(cuò)誤識(shí)別為“terebi”,“ehen”容易被錯(cuò)誤識(shí)別為“eakon”,“shouchi”容易被錯(cuò)誤識(shí)別為“shoumei”,以及“oodekoron”容易被錯(cuò)誤識(shí)別為“oodeo”。因此,識(shí)別為多余字詞的概率,即不錯(cuò)誤識(shí)別為被登記字詞的概率為0%。
在本實(shí)施例中,該語(yǔ)音指令信息存儲(chǔ)器7對(duì)應(yīng)于存儲(chǔ)裝置,該話筒3對(duì)應(yīng)于用于輸入從用戶發(fā)出的語(yǔ)音的裝置,該語(yǔ)音指令識(shí)別電路6對(duì)應(yīng)于語(yǔ)音識(shí)別裝置,以及紅外發(fā)射單元2對(duì)應(yīng)于發(fā)送裝置。
下面參照
本發(fā)明的第二實(shí)施例。在本實(shí)施例中,通過(guò)識(shí)別包含在用戶的語(yǔ)音中的被登記字詞,并且把該信息終端應(yīng)用于控制電子郵件發(fā)送和接收功能、日程安排管理功能、語(yǔ)音備忘錄處理功能、語(yǔ)音定時(shí)器功能等等,執(zhí)行在第一實(shí)施例中的語(yǔ)音識(shí)別處理。該語(yǔ)音備忘錄處理功能是使得用戶通過(guò)語(yǔ)音輸入備忘錄的內(nèi)容、記錄該語(yǔ)音并且在用戶要求時(shí)識(shí)別該語(yǔ)音的功能。該語(yǔ)音定時(shí)器功能是使得用戶通過(guò)語(yǔ)音輸入通知的內(nèi)容、記錄該語(yǔ)音、輸入通知時(shí)間、并且以該通知時(shí)間再現(xiàn)該語(yǔ)音的功能。
圖12為通過(guò)應(yīng)用根據(jù)本發(fā)明第二實(shí)施例的模擬電話的信息終端的主要方框圖。在圖12中所示的信息終端包括的語(yǔ)音識(shí)別單元51,用于識(shí)別包含在用戶的語(yǔ)音中的被登記字詞,并且執(zhí)行電子郵件發(fā)送和接收功能、日程安排管理功能、語(yǔ)音備忘錄處理功能、語(yǔ)音定時(shí)器功能等等;以及用于根據(jù)該識(shí)別結(jié)果連接到一個(gè)通信線的通信單元52。用戶的語(yǔ)音被從語(yǔ)音識(shí)別單元51的話筒53輸入,通放大器54傳送,并且由A/D轉(zhuǎn)換器55轉(zhuǎn)換為數(shù)字化的聲音參數(shù)。語(yǔ)音指令識(shí)別電路56為在一個(gè)語(yǔ)音單元中的數(shù)字化聲音參數(shù)計(jì)算在語(yǔ)音指令信息存儲(chǔ)器57中存儲(chǔ)和登記的被登記詞匯列表中的被登記字詞的似然性,并且與該似然性的最大累計(jì)值相關(guān)的字詞被提取作為最接近于用戶的語(yǔ)音的字詞。語(yǔ)音指令識(shí)別電路56同時(shí)為數(shù)字化的聲音參數(shù)計(jì)算被存儲(chǔ)和登記在語(yǔ)音指令信息存儲(chǔ)器57中的多余字詞的似然性。當(dāng)該多余字詞的似然性大于被登記字詞的似然性時(shí),認(rèn)為沒(méi)有被登記字詞被從該數(shù)字化的聲音參數(shù)中提取。
該語(yǔ)音指令信息存儲(chǔ)器57存儲(chǔ)作為被登記詞匯列表的一個(gè)電子郵件發(fā)送詞匯列表,其中存儲(chǔ)與電子郵件的發(fā)送功能相關(guān)的被登記字詞;電子郵件接收詞匯列表,其中存儲(chǔ)與電子郵件接收功能相關(guān)的被登記字詞;日程安排管理詞匯列表,其中存儲(chǔ)與日程安排管理功能相關(guān)的被登記字詞;語(yǔ)音備忘錄詞匯列表,其中存儲(chǔ)與語(yǔ)音備忘錄處理功能相關(guān)的被登記字詞;語(yǔ)音時(shí)間詞匯列表,其中存儲(chǔ)與語(yǔ)音定時(shí)器功能相關(guān)的被登記字詞;以及作為被登記字詞的對(duì)應(yīng)于郵件發(fā)送命令和郵件接收命令的控制代碼。如果電子郵件發(fā)送啟動(dòng)密碼被在語(yǔ)音指令識(shí)別電路56中提取,即作為識(shí)別結(jié)果而獲得,則在下文中所述的算術(shù)處理被執(zhí)行,以根據(jù)用戶的語(yǔ)音控制電子郵件發(fā)送功能,該用戶被允許通過(guò)語(yǔ)音輸入該郵件內(nèi)容,該郵件被話筒53所檢測(cè),通過(guò)話筒接口電路68作為語(yǔ)音數(shù)據(jù)存儲(chǔ)在RAM 69中。當(dāng)電子郵件發(fā)送命令被輸入時(shí),從語(yǔ)音指令信息存儲(chǔ)器57調(diào)用對(duì)應(yīng)于該命令的用于控制電話的控制代碼,并且發(fā)送到通信單元52,以及該語(yǔ)音數(shù)據(jù)被附加到該電子郵件上,并且被發(fā)送。類(lèi)似地,當(dāng)語(yǔ)音指令識(shí)別電路56獲得一個(gè)電子郵件接收啟動(dòng)密碼作為識(shí)別結(jié)果時(shí),根據(jù)用戶的語(yǔ)音執(zhí)行在下文中所述的用于控制電子郵件接收功能的算術(shù)處理。當(dāng)輸入電子郵件接收命令時(shí),從語(yǔ)音指令信息存儲(chǔ)器57調(diào)用對(duì)應(yīng)于該命令的用于控制電話的控制代碼,并且發(fā)送到通信單元52,從而接收附加有語(yǔ)音數(shù)據(jù)的電子郵件,并且通過(guò)D/A轉(zhuǎn)換器65和放大器16由擴(kuò)音器67再現(xiàn)該語(yǔ)音數(shù)據(jù)。該控制代碼沒(méi)有具體指定,只要它可以控制通信單元52即可。但是,由于通常使用一個(gè)AT命令,因此在本實(shí)施例中也采用一個(gè)AT命令。
當(dāng)語(yǔ)音指令識(shí)別電路56獲得該日程安排管理功能的啟動(dòng)密碼作為一個(gè)識(shí)別結(jié)果時(shí),中央控制電路58執(zhí)行在下文中所述的算術(shù)處理,用于根據(jù)該用戶的語(yǔ)音控制日程安排管理功能,該用戶被允許通過(guò)語(yǔ)音輸入該日程安排的內(nèi)容,該語(yǔ)音由話筒53所檢測(cè),并且作為語(yǔ)音數(shù)據(jù)通過(guò)話筒接口電路68存儲(chǔ)在RAM 69中,該日程安排的執(zhí)行日期被輸入,并且該執(zhí)行日期與該語(yǔ)音數(shù)據(jù)相關(guān),從而執(zhí)行該日程安排。當(dāng)在語(yǔ)音指令識(shí)別電路56中用于語(yǔ)音備忘錄處理功能的啟動(dòng)密碼被提取時(shí),即作為一個(gè)識(shí)別結(jié)果而獲得,則在中央控制電路58中執(zhí)行基于用戶的語(yǔ)音的語(yǔ)音備忘錄處理功能,用戶被允許通過(guò)語(yǔ)音輸入該備忘錄的內(nèi)容,該語(yǔ)音被話筒53所檢測(cè),并且作為語(yǔ)音數(shù)據(jù)通過(guò)話筒接口電路68存儲(chǔ)在RAM 69中,根據(jù)用戶的請(qǐng)求,該語(yǔ)音數(shù)據(jù)被從RAM 69調(diào)用,并且通過(guò)D/A轉(zhuǎn)換器65和放大器16由擴(kuò)音器67再現(xiàn)。另外,當(dāng)在語(yǔ)音指令識(shí)別電路56中用于語(yǔ)音定時(shí)器產(chǎn)生功能的啟動(dòng)密碼被作為一個(gè)識(shí)別結(jié)果而獲得,則在中央控制電路58將在下文中描述的算術(shù)處理用于根據(jù)用戶的語(yǔ)音控制該語(yǔ)音定時(shí)器功能,用戶被允許輸入通知的內(nèi)容,該語(yǔ)音被話筒所檢測(cè),并且作為語(yǔ)音數(shù)據(jù)通過(guò)話筒接口電路68存儲(chǔ)在RAM 69中,該語(yǔ)音的通知時(shí)序被輸入,用該通知時(shí)序從RAM 69調(diào)用該語(yǔ)音數(shù)據(jù),并且通過(guò)D/A轉(zhuǎn)換器65和放大器16由擴(kuò)音器67再現(xiàn)。
可用的硬件沒(méi)有具體指定,只要包含根據(jù)圖12的基本功能即可。在下文的描述中,描述當(dāng)被用作為語(yǔ)音識(shí)別單元51的在圖13中所示的通用個(gè)人計(jì)算機(jī)。
圖14示出在根據(jù)用戶的語(yǔ)音發(fā)送電子郵件的算術(shù)處理的流程圖中由在圖13中所示的信息終端所執(zhí)行的處理。盡管在該流程圖中沒(méi)有提供用于通信的步驟,但是在任何時(shí)候在該算術(shù)處理中獲得信息被更新和存儲(chǔ)在該存儲(chǔ)設(shè)備中,并且在任何時(shí)候從該存儲(chǔ)設(shè)備中讀取必要的信息。
當(dāng)執(zhí)行該算術(shù)處理時(shí),首先在步驟S101中,在話筒53中檢測(cè)的語(yǔ)音被讀取,并且確定是否包含作為包含在該語(yǔ)音中的被登記字詞的啟動(dòng)密碼(例如,字詞“電子郵件發(fā)送”)或者僅僅包含噪聲和除了啟動(dòng)密碼之外的語(yǔ)音,即多余字詞。如果包含該啟動(dòng)密碼(是),則控制進(jìn)行到步驟S102。否則(否),該處理流程被重復(fù)執(zhí)行。
在步驟S102中,該電子郵件發(fā)送詞匯列表被作為一個(gè)被登記詞匯列表而讀取,并且一個(gè)語(yǔ)音郵件啟動(dòng)器被激活,如圖15中所示,使得用戶可以在一個(gè)LCD顯示設(shè)備62上顯示該用戶可以發(fā)出指令的被登記字詞的列表。用于在LCD顯示設(shè)備62上顯示的被登記字詞例如可以是當(dāng)要產(chǎn)生郵件時(shí)被說(shuō)出的郵件產(chǎn)生命令(例如,“產(chǎn)生郵件”)。
在步驟S103中,由話筒53所檢測(cè)的語(yǔ)音被讀取,執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別郵件產(chǎn)生命令是否包含在該語(yǔ)音中或者僅僅包含噪聲和除了該郵件產(chǎn)生命令之外的語(yǔ)音。如果該語(yǔ)音包含一個(gè)郵件產(chǎn)生命令(是),則控制進(jìn)行到在步驟S104。否則(否),該處理流程被包含。
然后,在步驟S104中,在話筒53中檢測(cè)的語(yǔ)音被讀取,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別是否包含作為要被包含在該語(yǔ)音中的被登記字詞的目標(biāo)列表選擇命令(例如,字詞“目標(biāo)列表”),或者僅僅包含作為多余字詞的除了目標(biāo)列表選擇命令之外的語(yǔ)音。如果該目標(biāo)列表選擇命令被包含在該語(yǔ)音(是)中,則該控制進(jìn)行到步驟S105。否則(否),該控制進(jìn)行到步驟S106。
在步驟S105中,如圖15中所示,被登記郵件地址的人的名字的列表,即其郵件地址被存儲(chǔ)在一個(gè)存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中的人的名字,被顯示在LCD顯示設(shè)備62上,由話筒53所檢測(cè)的語(yǔ)音被讀取,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為包含在該語(yǔ)音中的被登記字詞的人的名字,對(duì)應(yīng)于該入名的郵件地址被呼叫,并且控制進(jìn)行到步驟S107。
在步驟S106中,請(qǐng)求發(fā)出該郵件目標(biāo)的郵件地址的消息被顯示在LCD顯示設(shè)備62上,由話筒53所檢測(cè)的語(yǔ)音被讀取,執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別表示包含在該語(yǔ)音中的被登記字詞的字母符號(hào),并且識(shí)別該目標(biāo)的郵件地址,從而控制進(jìn)行到步驟S107。
在步驟S107中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理例程,識(shí)別作為被登記字詞的記錄開(kāi)始命令(例如,“開(kāi)始記錄”)。并且確定該語(yǔ)音是否包含該記錄開(kāi)始命令,如果包含該記錄開(kāi)始命令(是),則控制進(jìn)行到步驟S108,否則(否),該處理流程被重復(fù)執(zhí)行。
在步驟S108中,請(qǐng)求說(shuō)出郵件內(nèi)容的消息被顯示在LCD顯示設(shè)備62上,通過(guò)在預(yù)定時(shí)間記錄由話筒53所檢測(cè)的語(yǔ)音數(shù)據(jù)而產(chǎn)生語(yǔ)音數(shù)據(jù),并且該語(yǔ)音數(shù)據(jù)被存儲(chǔ)在該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中,作為郵件內(nèi)容。
在步驟S109中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為被登記字詞的附加記錄命令(例如,“附加記錄”),并且確定該語(yǔ)音是否包含附加記錄命令。如果包含該附加記錄命令(是)。則控制進(jìn)行到步驟S108。否則(否),控制進(jìn)行到步驟S110。
在步驟S110中,由話筒53所檢測(cè)的語(yǔ)音被讀取,并且確定該語(yǔ)音是否包含一個(gè)記錄內(nèi)容確認(rèn)命令(例如,“確認(rèn)記錄內(nèi)容”)。如果該語(yǔ)音包含記錄內(nèi)容確認(rèn)命令(是),則控制進(jìn)行到步驟S111。否則(否),控制進(jìn)行到步驟S112。
在步驟S111中,在步驟S108中產(chǎn)生的語(yǔ)音數(shù)據(jù),即郵件內(nèi)容,被從在該存儲(chǔ)設(shè)備中的預(yù)定數(shù)據(jù)區(qū)中讀取,該語(yǔ)音數(shù)據(jù)由擴(kuò)音器67再現(xiàn),并且控制進(jìn)行到步驟S112。
在步驟S112中,讀取由話筒53所檢測(cè)的語(yǔ)音,并且確定該語(yǔ)音是否包含發(fā)送命令(例如,“確認(rèn)發(fā)送”)。如果包含發(fā)送命令(是),則控制進(jìn)行到步驟S113。否則(否),控制進(jìn)行到步驟S114。
在步驟S113中,用于呼叫提供者的AT命令被從該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中讀取,并且該AT命令被發(fā)送到語(yǔ)音通信單元102,用于連接到該提供者的郵件服務(wù)器。
然后,控制進(jìn)行到步驟S114,在步驟S108中產(chǎn)生的語(yǔ)音數(shù)據(jù),即郵件內(nèi)容,被從該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中讀取,該語(yǔ)音數(shù)據(jù)被附加到電子郵件,并且該電子郵件被發(fā)送到在步驟S105讀取的郵件地址,或者在步驟S106輸入的郵件地址。
然后,在步驟S115中,指定電路的斷開(kāi)的AT命令被從該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)調(diào)用,并且該AT命令被發(fā)送到通信單元52。
在步驟S116中,通知該電子郵件的發(fā)送已經(jīng)完成的消息被顯示在LCD顯示設(shè)備62上,然后控制進(jìn)行到步驟S118。
在步驟S117中,在步驟S108中產(chǎn)生的語(yǔ)音數(shù)據(jù),即郵件內(nèi)容,被從該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)刪除,并且控制進(jìn)行到步驟S118。
在步驟S118中,對(duì)于由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別該語(yǔ)音是否包含啟動(dòng)密碼(例如,“接收電子郵件”)或者噪聲和除了該啟動(dòng)密碼之外的語(yǔ)音,即僅僅多余字詞。如果包含該啟動(dòng)密碼(是),則控制進(jìn)行到步驟S202。否則(否),該處理流程被重復(fù)執(zhí)行。
然后,在步驟S202中,一個(gè)電子郵件接收詞匯列表被讀取作為一個(gè)被登記詞匯列表,并且激活語(yǔ)音郵件啟動(dòng)器,并且在LCD顯示設(shè)備62上顯示用戶可以發(fā)出一個(gè)指令的被登記字詞列表。要在LCD顯示設(shè)備62上顯示的被登記字詞例如可以是當(dāng)要接收郵件時(shí)發(fā)出的郵件接收命令(例如,“接收郵件”)。
然后,在步驟S203中,由話筒53所檢測(cè)的語(yǔ)音被讀取,并且確定該語(yǔ)音是否包含一個(gè)郵件接收命令。如果包含郵件接收命令(是),則控制進(jìn)行到步驟S204。否則(否),該處理流程被重復(fù)執(zhí)行。
然后,在步驟S204中,用于呼叫提供者的一個(gè)AT命令被從該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)調(diào)用,并且該AT命令被發(fā)送到語(yǔ)音通信單元102,用于連接到該提供者的郵件服務(wù)器。
然后,在步驟S205中,從在步驟S204中連接的郵件服務(wù)器接收電子郵件,并且該電子郵件被存儲(chǔ)在該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中。
然后,控制進(jìn)行到步驟S206,并且通知該電子郵件已經(jīng)被完全接收的消息被顯示在LCD顯示設(shè)備62上。
然后,在步驟S207中,表示線路斷開(kāi)的AT命令被從該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)調(diào)用,并且該AT命令被發(fā)送到通信單元52。
在步驟S208中,在步驟S205中接收的郵件列表被顯示在LCD顯示設(shè)備62上,由話筒53所檢測(cè)的語(yǔ)音被讀取,執(zhí)行該語(yǔ)音識(shí)別處理,識(shí)別作為包含在該語(yǔ)音中的被登記字詞的郵件選擇命令,并且用戶被允許從郵件列表中選擇特定的郵件。郵件選擇命令可以是任何命令,只要允許用戶選擇特定郵件即可。例如,當(dāng)郵件發(fā)送器的名稱被顯示在一個(gè)郵件列表中時(shí),列出的名稱可以被使用。
然后,在步驟S209中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的再現(xiàn)命令(例如,“再現(xiàn)”),并且確定該應(yīng)用是否包含一個(gè)再現(xiàn)命令。如果包含該再現(xiàn)命令(是),則控制進(jìn)行到步驟S210。否則(否),控制進(jìn)行到步驟S211。
在步驟S210中,附加到在步驟S208中選擇的郵件的語(yǔ)音數(shù)據(jù),即郵件內(nèi)容,被從該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中讀取,并且由擴(kuò)音器67再現(xiàn)該語(yǔ)音數(shù)據(jù),從而控制進(jìn)行到步驟S211。
在步驟S211中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的日程安排登記命令(例如,“登記日程安排”),并且確定該語(yǔ)音是否包含該日程安排登記命令。如果包含一個(gè)日程安排登記命令(是),則控制進(jìn)行到步驟S212。否則(否),控制進(jìn)行到步驟S217。
在步驟S212中,當(dāng)日程安排被激活時(shí),一個(gè)日程安排管理詞匯列表被讀取,作為一個(gè)被登記詞匯列表,并且用戶可以發(fā)出指令的被登記字詞的列表被顯示在LCD顯示設(shè)備62上。
然后,在步驟S213中,確定標(biāo)頭信息(例如,表示日期等等的信息)被在步驟S208中選擇的郵件中描述。如果標(biāo)頭信息被描述(是),則控制進(jìn)行到步驟S214。否則(否),控制進(jìn)行到步驟S215。
在步驟S214中,附加到在步驟S208中選擇的郵件的語(yǔ)音數(shù)據(jù),即郵件內(nèi)容,被存儲(chǔ)在該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中,作為在該郵件中描述的標(biāo)頭信息的日期的日程安排的內(nèi)容。然后,請(qǐng)求輸入日程安排的內(nèi)容的選擇大/小項(xiàng)目命令(例如,“私人”、“會(huì)議”等等)的消息被顯示在LCD顯示設(shè)備62上,由話筒53所檢測(cè)的語(yǔ)音被讀取,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別包含在該語(yǔ)音中作為被登記字詞的日程安排的內(nèi)容的一個(gè)選擇大/小項(xiàng)目命令。該識(shí)別結(jié)果被存儲(chǔ)在使用該識(shí)別結(jié)果作為語(yǔ)音數(shù)據(jù)(即日程安排內(nèi)容的大/小項(xiàng)目)的存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中,然后該控制進(jìn)行到步驟S217。
另一方面,在步驟S215中,請(qǐng)求輸入日程安排的執(zhí)行日期的消息被顯示在LCD顯示設(shè)備62上,由話筒53所檢測(cè)的語(yǔ)音被讀取,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別包含在該語(yǔ)音中作為被登記字詞的年月日輸入命令(例如,“日期”)。
然后,在步驟S216中,附加到在步驟S208中選擇的郵件的語(yǔ)音數(shù)據(jù)被存儲(chǔ)在該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中的,作為在步驟S215中識(shí)別的日期上的日程安排的內(nèi)容。然后,請(qǐng)求輸入該日程安排內(nèi)容的選擇大/小項(xiàng)目命令(例如,“私人”、“會(huì)議”等等)的消息被顯示在LCD顯示設(shè)備62上,由話筒53所檢測(cè)的語(yǔ)音被讀取,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別包含在該語(yǔ)音中作為被登記字詞的日程安排內(nèi)容的選擇大/小項(xiàng)目命令。然后,該識(shí)別結(jié)果被存儲(chǔ)在該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中,作為語(yǔ)音數(shù)據(jù),即該日程安排內(nèi)容的大/小項(xiàng)目,從而控制進(jìn)行到步驟S2117。
在步驟S217中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的終止命令(例如,“終止”),并且確定該語(yǔ)音是否包含該終止命令。如果包含一個(gè)終止命令(是),則算術(shù)處理結(jié)束。否則(否),控制進(jìn)行到步驟S203。
圖17示出由在圖13中所示的信息終端所執(zhí)行的處理,并且為用于根據(jù)用戶的語(yǔ)音執(zhí)行日程安排管理功能的算術(shù)處理的流程圖。在該流程圖中,沒(méi)有用于通信的步驟。但是,在該算術(shù)處理中獲得的信息被更新并且存儲(chǔ)在該存儲(chǔ)設(shè)備中,并且從該存儲(chǔ)設(shè)備中讀取必要信息。當(dāng)執(zhí)行算術(shù)處理時(shí),首先在步驟S301中,由話筒53所檢測(cè)的用于被讀取,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別該語(yǔ)音是否包含啟動(dòng)密碼(例如,“語(yǔ)音日程安排”)或者包含噪聲和除了該啟動(dòng)密碼之外的語(yǔ)音,即僅僅包含多余字詞。如果包含該啟動(dòng)密碼(是),則控制進(jìn)行到步驟S302。否則(否),該處理流程被重復(fù)執(zhí)行。
然后,在步驟S302中,一個(gè)日程安排管理詞匯列表被讀取作為一個(gè)被登記詞匯列表,該語(yǔ)音日程安排啟動(dòng)器被激活,如圖18中所示,并且用戶可以發(fā)出一個(gè)指令的被登記字詞的列表可以顯示在該LCD顯示設(shè)備62上。顯示在LCD顯示設(shè)備62上的被登記字詞例如可以是當(dāng)?shù)怯浫粘贪才艜r(shí)要被說(shuō)出的一個(gè)日程安排登記命令(例如,“設(shè)置日程安排”),以及當(dāng)確認(rèn)日程安排要被說(shuō)出的一個(gè)日程安排確認(rèn)命令(例如,“確認(rèn)日程安排”)。
然后,在步驟S303中,要求說(shuō)出日程安排的執(zhí)行日期的消息被顯示在LCD顯示設(shè)備62上,由話筒53所檢測(cè)的語(yǔ)音被讀取,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別包含在該語(yǔ)音中作為一個(gè)被登記字詞的年月日輸入命令(例如,“日期”)。
然后,控制進(jìn)行到步驟S304,并且對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的日程安排登記命令,并且確定該語(yǔ)音是否包含一個(gè)日程安排登記命令。如果包含一個(gè)日程安排登記命令(是),則控制進(jìn)行到步驟S305。否則(否),控制進(jìn)行到步驟S310。
在步驟S305中,讀取由話筒53所檢測(cè)的語(yǔ)音,執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別包含在該語(yǔ)音中作為一個(gè)被登記字詞的日程安排開(kāi)始/停止時(shí)間輸入命令(例如,“時(shí)間”),并且用戶被要求輸入該日程安排的開(kāi)始和停止時(shí)間。
然后,在步驟S306中,要求說(shuō)出日程安排的內(nèi)容的消息被顯示在該LCD顯示設(shè)備62上,由在預(yù)定時(shí)間內(nèi)記錄話筒53所檢測(cè)的語(yǔ)音,并且產(chǎn)生語(yǔ)音數(shù)據(jù),該數(shù)據(jù)存儲(chǔ)在該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中,作為在步驟S303中識(shí)別的日期上的日程安排的內(nèi)容。
然后,在步驟S307中,要求輸入日程安排內(nèi)容的選擇大/小項(xiàng)目命令(例如,“私人”、“會(huì)議”等等)被顯示在LCD顯示設(shè)備62上,由話筒53所檢測(cè)的語(yǔ)音被讀取,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別包含在該語(yǔ)音中作為被登記字詞的輸入/輸出的內(nèi)容的選擇大/小項(xiàng)目命令。然后,該識(shí)別結(jié)果被存儲(chǔ)在該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中,作為在步驟S306中產(chǎn)生的語(yǔ)音數(shù)據(jù),即日程安排的內(nèi)容的大/小項(xiàng)目。
在步驟S308中,要求說(shuō)出提醒功能的設(shè)置命令的消息(例如,“設(shè)置提醒”)被顯示在LCD顯示設(shè)備62上,并且對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的提醒設(shè)置命令。然后,確定該語(yǔ)音是否包含該提醒設(shè)置命令。如果該提醒設(shè)置命令被包含(是),則控制進(jìn)行到步驟S309。否則(否),控制進(jìn)行到步驟S324。該提醒功能是指以預(yù)定時(shí)序通知日程安排的內(nèi)容,并且提醒用戶存在該日程安排的功能。
在步驟S309中,要求輸入一個(gè)目標(biāo)的名稱和提醒的通知時(shí)間的消息等等被顯示在LCD顯示設(shè)備62上,讀取由話筒53檢測(cè)的語(yǔ)音,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別包含在該目標(biāo)名稱的設(shè)置命令的語(yǔ)音中作為被登記字詞的提醒的通知時(shí)間(例如,“在預(yù)定時(shí)間之前的分鐘數(shù)”),并且用戶被允許通過(guò)該提醒功能輸入通知時(shí)間等等。在該提醒的下一個(gè)通知時(shí)間處,在步驟S306中產(chǎn)生的語(yǔ)音數(shù)據(jù),即日程安排內(nèi)容,被從預(yù)定數(shù)據(jù)區(qū)中讀取,執(zhí)行使用擴(kuò)音器67再現(xiàn)該語(yǔ)音數(shù)據(jù)的算術(shù)處理,并且控制進(jìn)行到步驟S324。
在步驟S310,對(duì)于由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為被登記字詞的一個(gè)日程安排確認(rèn)命令,并且確定該日程安排確認(rèn)命令是否包含在該語(yǔ)音中。如果一個(gè)日程安排確認(rèn)命令被包含(是),則控制進(jìn)行到步驟S311。否則(否),控制進(jìn)行到步驟S319。
在步驟S311中,如圖19中所示,從該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中讀取在用于接收電子郵件的算術(shù)處理中在步驟S214、S216和S307中輸入的日程安排內(nèi)容的大/小項(xiàng)目,并且在LCD顯示設(shè)備62上顯示該項(xiàng)目的列表。
在步驟S312中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的記錄內(nèi)容確認(rèn)命令(例如,“確認(rèn)”),并且確定該記錄內(nèi)容確認(rèn)命令是否包含在該語(yǔ)音中。如果一個(gè)記錄內(nèi)容確認(rèn)命令被包含(是),則控制進(jìn)行到步驟S313。否則(否),控制進(jìn)行到步驟S314。
在步驟S313中,對(duì)應(yīng)于步驟S311中在LCD顯示設(shè)備62上列出的大/小項(xiàng)目的語(yǔ)音數(shù)據(jù),即日程安排內(nèi)容,由擴(kuò)音器67再現(xiàn),并且控制進(jìn)行到步驟S314。
在步驟S314中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的日程安排添加/登記命令(例如,“設(shè)置日程安排”),并且確定該日程安排添加/登記命令是否包含在該語(yǔ)音中。如果日程安排添加/登記命令被包含(是),則控制進(jìn)行到步驟S315。否則(否),控制進(jìn)行到步驟S316。
在步驟S315中,用于登記新的日程安排的數(shù)據(jù)區(qū)被保留在該存儲(chǔ)設(shè)備中,然后控制進(jìn)行到步驟S305。
另一方面,在步驟S316中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的日程安排修改命令(例如,“修改”),并且確定該日程安排修改命令是否包含在該語(yǔ)音中。如果日程安排修改命令被包含(是),則控制進(jìn)行到步驟S305。否則(否),控制進(jìn)行到步驟S317。
在步驟S317中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的日程安排刪除命令(例如,“刪除”),并且確定該日程安排刪除命令是否包含在該語(yǔ)音中。如果日程安排刪除命令被包含(是),則控制進(jìn)行到步驟S318。否則(否),控制進(jìn)行到步驟S311。
在步驟S318中,登記日程安排的數(shù)據(jù)區(qū)被從該存儲(chǔ)設(shè)備中刪除,并且控制進(jìn)行到步驟S324。
在步驟S319中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的日程安排檢索命令(例如,“日程安排檢索”),并且確定該日程安排檢索命令是否包含在該語(yǔ)音中。如果日程安排檢索命令被包含(是),則控制進(jìn)行到步驟S320。否則(否),控制進(jìn)行到步驟S303。
在步驟S320中,請(qǐng)求說(shuō)出日程安排內(nèi)容的選擇大/小項(xiàng)目命令的消息被顯示在LCD顯示設(shè)備62上,并且由話筒53所檢測(cè)的語(yǔ)音被讀取,執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別包含在該語(yǔ)音中的日程安排內(nèi)容的選擇大/小項(xiàng)目命令,并且允許用戶輸入要被檢索的日程安排內(nèi)容的大/小項(xiàng)目。
然后,在步驟S321中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的檢索執(zhí)行命令(例如,“執(zhí)行檢索”),并且確定該檢索執(zhí)行命令是否包含在該語(yǔ)音中。如果檢索執(zhí)行命令被包含(是),則控制進(jìn)行到步驟S322。否則(否),控制進(jìn)行到步驟S320。
在步驟S322中,對(duì)應(yīng)于在步驟S320中識(shí)別的日程安排內(nèi)容的大/小項(xiàng)目的日程安排被從該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中檢索,并且檢索結(jié)果被顯示在LCD顯示設(shè)備62上。
在步驟S323中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的重新檢索命令(例如,“重新檢索”),并且確定該重新檢索命令是否包含在該語(yǔ)音中。如果重新檢索命令被包含(是),則控制進(jìn)行到步驟S324。否則(否),控制進(jìn)行到步驟S320。
在步驟S324中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的終止命令(例如,“終止”),并且確定該終止命令是否包含在該語(yǔ)音中。如果終止命令被包含(是),則該處理終止。否則(否),控制進(jìn)行到步驟S303。
圖20示出由在圖13中所示的信息終端所執(zhí)行的處理,并且為根據(jù)用戶的語(yǔ)音執(zhí)行語(yǔ)音備忘錄功能的算術(shù)處理的流程圖。在該流程圖中,沒(méi)有提供用于通信的步驟。但是,在任何時(shí)間,在該算術(shù)處理中獲得的信息被更新并且存儲(chǔ)在該存儲(chǔ)設(shè)備中,并且從該存儲(chǔ)設(shè)備中讀取必要信息。當(dāng)執(zhí)行該算術(shù)處理時(shí),首先在步驟S401中,由話筒53所檢測(cè)的語(yǔ)音被讀取,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別是否包含作為包含在該語(yǔ)音中的被登記字詞的啟動(dòng)密碼(例如,“語(yǔ)音備忘錄”)或者包含噪聲或除了啟動(dòng)密碼之外的語(yǔ)音,即多余字詞。如果包含啟動(dòng)密碼(是),則控制進(jìn)行到步驟S402。否則(否),該處理流程被重復(fù)執(zhí)行。然后,在步驟S402中,讀取一個(gè)語(yǔ)音備忘錄詞匯列表,作為被登記詞匯列表,并且激活語(yǔ)音備忘錄啟動(dòng)器,如圖21中所示,并且用戶可以發(fā)出的指令的一個(gè)被登記字詞列表被顯示在LCD顯示設(shè)備62上。要顯示在LCD顯示設(shè)備62上的被登記字詞可以是當(dāng)要記錄語(yǔ)音時(shí)說(shuō)出的記錄命令(例如,“開(kāi)始記錄”);當(dāng)要再現(xiàn)語(yǔ)音備忘錄時(shí)說(shuō)出的再現(xiàn)命令(例如,“開(kāi)始再現(xiàn)”);當(dāng)要選擇語(yǔ)音備忘錄時(shí)說(shuō)出的備忘錄文件夾號(hào)選擇命令,該號(hào)碼與每個(gè)語(yǔ)音備忘錄相關(guān)(例如,“第一”、“第二”等等)。
在步驟S403中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的備忘錄文件夾號(hào)選擇命令(例如,“設(shè)置日程安排”),并且確定該備忘錄文件夾號(hào)選擇命令是否包含在該語(yǔ)音中。如果備忘錄文件夾號(hào)選擇命令被包含(是),則控制進(jìn)行到步驟S404。否則(否),控制進(jìn)行到步驟S407。
在步驟S404中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的記錄命令,并且確定該記錄命令是否包含在該語(yǔ)音中。如果記錄命令被包含(是),則控制進(jìn)行到步驟S405。否則(否),控制進(jìn)行到步驟S403。
在步驟S405中,請(qǐng)求請(qǐng)求說(shuō)出備忘錄內(nèi)容的消息被顯示在LCD顯示設(shè)備62上,通過(guò)在預(yù)定時(shí)間記錄由話筒53檢測(cè)的語(yǔ)音而產(chǎn)生語(yǔ)音數(shù)據(jù),并且語(yǔ)音數(shù)據(jù)被存儲(chǔ)在該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中作為對(duì)應(yīng)于在步驟S403中選擇的備忘錄文件夾的備忘錄內(nèi)容。
在步驟S406中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的記錄內(nèi)容確認(rèn)命令(例如,“確認(rèn)”),并且確定該記錄內(nèi)容確認(rèn)命令是否包含在該語(yǔ)音中。如果記錄內(nèi)容確認(rèn)命令被包含(是),則控制進(jìn)行到步驟S408。否則(否),控制進(jìn)行到步驟S409。
在步驟S407中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的再現(xiàn)命令,并且確定該再現(xiàn)命令是否包含在該語(yǔ)音中。如果再現(xiàn)命令被包含(是),則控制進(jìn)行到步驟S408。否則(否),該處理流程被重復(fù)執(zhí)行。
在步驟S408中,對(duì)應(yīng)于在步驟S403中選擇的備忘錄文件夾的語(yǔ)音數(shù)據(jù),即備忘錄內(nèi)容,被從該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中讀取,并且由擴(kuò)音器67再現(xiàn)該語(yǔ)音數(shù)據(jù),并且控制進(jìn)行到步驟S409。
在步驟S409中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的終止命令(例如,“終止”),并且確定該終止命令是否包含在該語(yǔ)音中。如果終止命令被包含(是),則該處理終止。否則(否),控制進(jìn)行到步驟S403。
圖22示出在圖13中所示的信息終端所執(zhí)行的處理,并且為根據(jù)用戶的語(yǔ)音執(zhí)行語(yǔ)音定時(shí)器功能的算術(shù)處理的流程圖。在該流程圖中,沒(méi)有提供用于通信的步驟。但是,在任何時(shí)候,在該算術(shù)處理中獲得的信息被更新,并且存儲(chǔ)在該存儲(chǔ)設(shè)備中,并且從該存儲(chǔ)設(shè)備讀取必要信息。當(dāng)執(zhí)行算術(shù)處理時(shí),首先在步驟S501中,讀取由話筒53檢測(cè)的語(yǔ)音,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別是否包含作為包含于該語(yǔ)音中的被登記字詞的啟動(dòng)密碼(例如,“語(yǔ)音定時(shí)器”),或者除了啟動(dòng)密碼之外的語(yǔ)音,即僅僅包含多余字詞。如果包含一個(gè)啟動(dòng)密碼(是),則控制進(jìn)行到步驟S502。否則(否),該處理流程被重復(fù)執(zhí)行。
然后,在步驟S502中,用戶可以發(fā)出指令的一個(gè)語(yǔ)音定時(shí)器詞匯列表被顯示在LCD顯示設(shè)備12上。要顯示在LCD顯示設(shè)備62上的被登記字詞可以是當(dāng)設(shè)置通知內(nèi)容和通知時(shí)序時(shí)說(shuō)出的定時(shí)器設(shè)置命令(例如,“設(shè)置定時(shí)器”)等等。
在步驟S503中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的定時(shí)器設(shè)置命令,并且確定該定時(shí)器設(shè)置命令是否包含在該語(yǔ)音中。如果定時(shí)器設(shè)置命令被包含(是),則控制進(jìn)行到步驟S504。否則(否),控制進(jìn)行到步驟S502。
在步驟S504中,請(qǐng)求輸入從該定時(shí)器開(kāi)始工作到通知時(shí)的時(shí)間,即通知時(shí)序,的消息被顯示在LCD顯示設(shè)備62上,讀取由話筒53檢測(cè)的語(yǔ)音,并且執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的定時(shí)器時(shí)間設(shè)置命令(例如,“分鐘”)。
然后,在步驟S505中,請(qǐng)求返回對(duì)于是否要記錄該通知內(nèi)容的回答被顯示在LCD顯示設(shè)備62上,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的記錄開(kāi)始確認(rèn)命令(例如,“是”),并且確定該記錄開(kāi)始確認(rèn)命令是否包含在該語(yǔ)音中。如果記錄開(kāi)始確認(rèn)命令被包含(是),則控制進(jìn)行到步驟S506。否則(否),控制進(jìn)行到步驟S502。
在步驟S506中,請(qǐng)求說(shuō)出該通知內(nèi)容的消息被顯示在LCD顯示設(shè)備62上,該語(yǔ)音數(shù)據(jù)通過(guò)在預(yù)定時(shí)間記錄由話筒53檢測(cè)的語(yǔ)音而產(chǎn)生,并且該語(yǔ)音數(shù)據(jù)被存儲(chǔ)在該存儲(chǔ)設(shè)備的數(shù)據(jù)區(qū)中,作為要在步驟S504中識(shí)別時(shí),即通知時(shí)序,通知的通知內(nèi)容。
然后,在步驟S507中,在步驟S506中記錄的語(yǔ)音數(shù)據(jù),即請(qǐng)求確認(rèn)該通知內(nèi)容的消息,被顯示在LCD顯示設(shè)備62上,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的記錄內(nèi)容的確認(rèn)命令,確定該語(yǔ)音是否包含記錄內(nèi)容的確認(rèn)命令。如果記錄內(nèi)容的確認(rèn)命令被包含(是),則控制進(jìn)行到步驟S508。否則(否),控制進(jìn)行到步驟S509。
在步驟S508中,在步驟S506中產(chǎn)生的語(yǔ)音數(shù)據(jù),即通知內(nèi)容,由擴(kuò)音器67再現(xiàn),然后控制進(jìn)行到步驟S509。
在步驟S509中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的終止命令(例如,“終止”),并且確定該終止命令是否包含在該語(yǔ)音中。如果終止命令被包含(是),則該算術(shù)處理終止。否則(否),控制進(jìn)行到步驟S502。
在步驟S510中,對(duì)由話筒53所檢測(cè)的語(yǔ)音執(zhí)行語(yǔ)音識(shí)別處理,識(shí)別作為一個(gè)被登記字詞的定時(shí)器啟動(dòng)命令,并且確定該定時(shí)器啟動(dòng)命令是否包含在該語(yǔ)音中。如果定時(shí)器啟動(dòng)命令被包含(是),則控制進(jìn)行到步驟S511。否則(否),控制進(jìn)行到步驟S502。
在步驟S511中,在步驟S504中識(shí)別的時(shí)間處,在步驟S506中產(chǎn)生的語(yǔ)音數(shù)據(jù),即通知內(nèi)容,被從該存儲(chǔ)設(shè)備的預(yù)定數(shù)據(jù)區(qū)中讀取,即以通知時(shí)序讀取,執(zhí)行由擴(kuò)音器67再現(xiàn)該語(yǔ)音數(shù)據(jù)的算術(shù)處理,并且終止該算術(shù)處理。
如上文所述,由于根據(jù)本實(shí)施例的信息通信終端通過(guò)識(shí)別包含在用戶的語(yǔ)音中的被登記字詞執(zhí)行電子郵件發(fā)送和接收功能、日程安排管理功能、語(yǔ)音備忘錄處理功能以及語(yǔ)音定時(shí)器功能,用戶可以僅僅通過(guò)說(shuō)出被登記字詞而不實(shí)際操作來(lái)使用每個(gè)功能。
另外,與第一實(shí)施例相同,由于執(zhí)行類(lèi)似于在上述第一實(shí)施例中的處理的語(yǔ)音識(shí)別處理,當(dāng)由用戶說(shuō)出不包含被登記字詞的語(yǔ)音,即除了被登記字詞之外的語(yǔ)音。則對(duì)該語(yǔ)音的聲音參數(shù)序列計(jì)算的音素模型23的似然性較大。并且對(duì)被登記字詞的詞匯網(wǎng)絡(luò)22計(jì)算的似然性較小。
根據(jù)該似然性,除了被登記字詞之外的語(yǔ)音被識(shí)別為多余字詞,并且避免除了被登記字詞之外的語(yǔ)音被錯(cuò)誤地識(shí)別為被登記字詞,從而避免該信息終端的故障。
根據(jù)本發(fā)明,話筒53對(duì)應(yīng)于語(yǔ)音檢測(cè)裝置,語(yǔ)音指令識(shí)別電路56對(duì)應(yīng)于語(yǔ)音識(shí)別裝置,并且中央控制電路58對(duì)應(yīng)于控制裝置。
下面參照附圖描述本發(fā)明的第三實(shí)施例。在該實(shí)施例中,通過(guò)識(shí)別包含在用戶的語(yǔ)音中的被登記字詞,與第一實(shí)施例中的處理相類(lèi)似的語(yǔ)音識(shí)別處理被應(yīng)用于連接到通信電路的電話通信終端。圖23為使用根據(jù)本發(fā)明第三實(shí)施例的模擬電話或語(yǔ)音調(diào)制解調(diào)器的電話通信終端的主要方框圖。在圖23中所示的電話通信終端包含用于控制語(yǔ)音識(shí)別的語(yǔ)音識(shí)別單元101;用于控制語(yǔ)音通信的語(yǔ)音通信單元102,即,用于識(shí)別包含在用戶的語(yǔ)音中的被登記字詞的語(yǔ)音識(shí)別單元101,以及用于根據(jù)識(shí)別結(jié)果連接到通信電路的語(yǔ)音通信單元102。用戶的語(yǔ)音被從語(yǔ)音識(shí)別單元101的話筒103輸入。通過(guò)放大器104發(fā)送,以及由A/D轉(zhuǎn)換器105轉(zhuǎn)換為數(shù)字化的聲音參數(shù)。該輸入的模擬語(yǔ)音不被指定,但是通常在從8KHz至16KHz的范圍內(nèi)的特定頻率被取樣和數(shù)字化。相對(duì)于用于每個(gè)語(yǔ)音單元的聲音參數(shù),計(jì)算被數(shù)字化的聲音參數(shù)的似然性,該語(yǔ)音單元作為用于在語(yǔ)音指令識(shí)別電路106的語(yǔ)音指令信息存儲(chǔ)器107內(nèi)存儲(chǔ)和登記的被登記詞匯列表的每個(gè)字詞的構(gòu)成單元,從而從被登記詞匯列表中提取最可能的字詞。也就是說(shuō),在語(yǔ)音指令識(shí)別電路106中,對(duì)每個(gè)構(gòu)成單元(在下文中稱為語(yǔ)音單元)計(jì)算存儲(chǔ)和登記在用于該數(shù)字化的聲音參數(shù)的語(yǔ)音指令信息存儲(chǔ)器107中的被登記詞匯列表內(nèi)的字詞(在下文中稱為被登記字詞)的似然性,并且該似然性的最大累計(jì)值被提取作為最接近于用戶的語(yǔ)音的被登記字詞。在該語(yǔ)音指令識(shí)別電路106中,同時(shí)對(duì)數(shù)字化的聲音參數(shù)計(jì)算被存儲(chǔ)和登記在語(yǔ)音指令信息存儲(chǔ)器107中的多余字詞模型的似然性。當(dāng)該多余字詞模型的似然性大于被登記字詞的似然性時(shí),認(rèn)為沒(méi)有從該數(shù)字化的聲音參數(shù)中提取被登記字詞。
在被登記詞匯列表中,被登記字詞和除了被登記字詞之外的多余字詞被登記。一個(gè)語(yǔ)音單元可以是一個(gè)音節(jié)、音素、半音節(jié)、雙音(兩對(duì)音素)、三音(三對(duì)音素)等等。
在語(yǔ)音指令信息存儲(chǔ)器107中,存儲(chǔ)名字和對(duì)應(yīng)于該名字的電話號(hào)碼的名字詞匯列表、用于根據(jù)對(duì)應(yīng)于任意電話號(hào)碼的數(shù)字?jǐn)?shù)目識(shí)別序列號(hào)的號(hào)碼詞匯列表、與電話操作相關(guān)的電話呼叫操作詞匯列表、與在接收入局呼叫時(shí)的應(yīng)答相關(guān)的呼叫接收操作詞匯列表、以及對(duì)應(yīng)于每個(gè)被登記字詞的控制代碼被作為被登記詞匯列表而存儲(chǔ)。例如,當(dāng)語(yǔ)音指令識(shí)別電路106提取與電話操作相關(guān)的被登記字詞時(shí),即獲得識(shí)別結(jié)果時(shí),用于對(duì)應(yīng)于被識(shí)別為被登記字詞的語(yǔ)音的電話操作的控制代碼被從語(yǔ)音指令信息存儲(chǔ)器107中調(diào)用,并且從中央控制電路108發(fā)送到語(yǔ)音通信單元102。該控制代碼沒(méi)有具體限制,只要它被用于控制語(yǔ)音通信單元102即可。但是,由于通常使用一個(gè)AT命令,因此該AT命令被用作為本實(shí)施例中的代表例。
在電話呼叫操作中,當(dāng)通過(guò)語(yǔ)音從話筒103輸入人名或電話號(hào)碼信息時(shí),包含在該語(yǔ)音中的被登記字詞被識(shí)別,該語(yǔ)音識(shí)別結(jié)果被顯示在LCD顯示單元109上,用于視覺(jué)通知,由應(yīng)答語(yǔ)音控制電路110從應(yīng)答語(yǔ)音信息存儲(chǔ)器118調(diào)用,并且作為模擬信號(hào)從擴(kuò)音器113通過(guò)聲音通知。當(dāng)該識(shí)別結(jié)果為正確時(shí),并且當(dāng)用戶從話筒103輸入例如“發(fā)出呼叫”這樣的語(yǔ)音命令時(shí),中央控制電路108把發(fā)出控制轉(zhuǎn)換為AT命令這樣的目標(biāo)電話號(hào)碼,并且把其發(fā)送到語(yǔ)音通信單元102的單片微計(jì)算機(jī)114。
當(dāng)一條電話線被連接,并且使能日程安排內(nèi)容時(shí),使用語(yǔ)音通信單元102的話筒115和擴(kuò)音器116執(zhí)行語(yǔ)音通信,并且可以獨(dú)立于語(yǔ)音通信單元102的話筒115和擴(kuò)音器116來(lái)調(diào)節(jié)語(yǔ)音識(shí)別單元101的話筒103和擴(kuò)音器113的音量。
在語(yǔ)音識(shí)別單元101中,當(dāng)用于控制電話的控制代碼被從中央控制電路108通過(guò)外部接口117發(fā)送到語(yǔ)音通信單元102時(shí),可以通過(guò)接收來(lái)自語(yǔ)音通信單元102而檢查語(yǔ)音通信單元102的掛機(jī)狀態(tài)、摘機(jī)狀態(tài)或者線路通信狀態(tài),并且可以通過(guò)根據(jù)該狀態(tài)為后續(xù)的操作順序地改變必要的被登記詞匯列表而減少由于多余字詞所導(dǎo)致的錯(cuò)誤識(shí)別。例如,當(dāng)接收一個(gè)入局呼叫時(shí),用于通知在語(yǔ)音通信單元102接收的呼叫的振鈴信息被發(fā)送到語(yǔ)音識(shí)別單元101,從而調(diào)用與對(duì)入局呼叫的應(yīng)答相關(guān)的呼叫接收操作詞匯列表,并且使用語(yǔ)音識(shí)別單元101的話筒103確定用戶是否通過(guò)語(yǔ)音應(yīng)答該呼叫,并且通過(guò)語(yǔ)音輸入可以免提地執(zhí)行電話通信。在此時(shí),如果可以獲得例如目標(biāo)的電話號(hào)碼等等這樣的目標(biāo)信息,則該名稱和電話號(hào)碼被與名稱詞匯列表相比較,該比較結(jié)果被顯示在LCD顯示單元109上,用于視覺(jué)通知,使用應(yīng)答語(yǔ)音控制電路110從應(yīng)答語(yǔ)音信息存儲(chǔ)器118調(diào)用對(duì)應(yīng)于該比較結(jié)果的應(yīng)答語(yǔ)音數(shù)據(jù),并且可以通過(guò)D/A轉(zhuǎn)換器111和放大器112從話筒103發(fā)送聲音通知“來(lái)自某某先生的呼叫”。
因此,根據(jù)本實(shí)施例,通過(guò)提供一個(gè)語(yǔ)音輸入/輸出系統(tǒng),即至少話筒和擴(kuò)音器的兩個(gè)系統(tǒng),更加具體的信息可以通過(guò)除了與在普通振鈴系統(tǒng)中所用的擴(kuò)音器116的操作同時(shí)出現(xiàn)的屏幕顯示之外的方式發(fā)送到用戶。在該屏幕顯示上發(fā)送具體信息的方法中,當(dāng)用戶遠(yuǎn)離電話的本體時(shí),或者當(dāng)該用戶是一個(gè)視覺(jué)殘疾的人時(shí),即使在難以確認(rèn)關(guān)于接收入局呼叫的電話的目標(biāo)信息的情況下,也可以順利地執(zhí)行操作。
圖24示出關(guān)于到公用電話線的連接裝置的移動(dòng)電話的無(wú)線系統(tǒng)的變型。與圖23相比,在語(yǔ)音通信單元102的主要方框圖方面是不同的。當(dāng)使用移動(dòng)電話的無(wú)線系統(tǒng)時(shí),用于語(yǔ)音通信的普通輸入/輸出設(shè)備,即語(yǔ)音通信單元102的話筒115和擴(kuò)音器116,被根據(jù)目標(biāo)的語(yǔ)音接收狀態(tài)而通電和斷電。因此,通過(guò)分別準(zhǔn)備該語(yǔ)音輸入/輸出設(shè)備,即用于語(yǔ)音識(shí)別的話筒103和擴(kuò)音器113,具有語(yǔ)音識(shí)別功能的電話通信終端可以被繼續(xù)使用,而與用于根據(jù)該語(yǔ)音通信系統(tǒng)而操作的語(yǔ)音通信的輸入/輸出設(shè)備的特征(操作狀態(tài))無(wú)關(guān)。也就是說(shuō),盡管用戶與一個(gè)相對(duì)方進(jìn)行通信并且該語(yǔ)音通信單元102的話筒115和擴(kuò)音器116被用于該通信,用戶可以在語(yǔ)音識(shí)別單元101上輸入語(yǔ)音,并且可以控制該語(yǔ)音通信單元102。在通過(guò)用由語(yǔ)音自動(dòng)發(fā)送的撥號(hào)音由聽(tīng)筒輸入語(yǔ)音的方法中,由于電話能夠繼續(xù)接收語(yǔ)音輸入,因此需要摘機(jī)模式。在這種情況中,該接收器繼續(xù)摘機(jī),從而拒絕入局呼叫。
圖25為通過(guò)用戶說(shuō)出一個(gè)人名由中央控制電路108所執(zhí)行的發(fā)出操作等等的算術(shù)處理的流程圖。也就是說(shuō),圖25示出與使用該人名的呼叫發(fā)出操作相關(guān)的處理流程。在該流程圖中,盡管沒(méi)有用于通信的步驟,但是在任何時(shí)候,在該算術(shù)處理中獲得的信息被更新,并且存儲(chǔ)在該存儲(chǔ)設(shè)備中,以及從該存儲(chǔ)設(shè)備讀取必要信息。當(dāng)執(zhí)行算術(shù)處理時(shí),首先在步驟S601中,通過(guò)檢測(cè)掛機(jī)狀態(tài)以及接收呼叫發(fā)出的狀態(tài),確認(rèn)語(yǔ)音通信單元102的初始狀態(tài)。實(shí)踐中,通過(guò)從語(yǔ)音通信單元102接收狀態(tài)信號(hào)而確定是否處于掛機(jī)狀態(tài)。如果處于掛機(jī)狀態(tài)(是),則控制進(jìn)行到步驟S602。否則(否),該處理流程被重復(fù)執(zhí)行。
在步驟S602中,通過(guò)語(yǔ)音從用戶輸入的名字被接收。實(shí)踐中,作為一個(gè)被登記詞匯列表,一個(gè)存儲(chǔ)該名字和電話號(hào)碼的名字詞匯列表被讀取,由話筒103所檢測(cè)的語(yǔ)音被讀取,并且語(yǔ)音指令識(shí)別電路106識(shí)別該語(yǔ)音是否包含登記在被登記詞匯列表中的名字,或者包含噪聲和除了人名之外的語(yǔ)音,即僅僅包含多余字詞。與人名相關(guān),語(yǔ)音指令信息存儲(chǔ)器107存儲(chǔ)對(duì)應(yīng)于該名字的電話號(hào)碼,作為一個(gè)名字詞匯列表。輸入模擬語(yǔ)音沒(méi)有具體的限制,但是通常在從8KHz至16KHz的范圍內(nèi)的特定頻率上被采樣和數(shù)字化。相對(duì)于用于作為在語(yǔ)音指令識(shí)別電路106的語(yǔ)音指令信息存儲(chǔ)器107中存儲(chǔ)和登記的被登記詞匯列表的每個(gè)字詞的構(gòu)成單元的每個(gè)語(yǔ)音單元的聲音參數(shù),計(jì)算該數(shù)字化的聲音參數(shù)的似然性,從而從被登記名字詞匯列表中提取最近似的字詞。也就是說(shuō),在語(yǔ)音指令識(shí)別電路106中,對(duì)于在語(yǔ)音指令識(shí)別電路106中的每個(gè)構(gòu)成單元計(jì)算在該名字的被登記詞匯列表中并且存儲(chǔ)和登記在語(yǔ)音指令信息存儲(chǔ)器107中的名字的似然性,并且提取該似然性的最大累計(jì)值,作為最接近于用戶的語(yǔ)音的被登記名字。在該語(yǔ)音指令識(shí)別電路6中,同時(shí)對(duì)數(shù)字化的聲音參數(shù)計(jì)算存儲(chǔ)和登記語(yǔ)音指令信息存儲(chǔ)器7中的多余字詞模型的似然性。當(dāng)該多余字詞模型的似然性大于被登記名字的似然性時(shí),認(rèn)為沒(méi)有從該數(shù)字化的聲音參數(shù)中提取被登記名字。在步驟S603中,確定是否在步驟S602中識(shí)別登記在該名字詞匯列表中的人名被包含在該語(yǔ)音中。如果登記在被登記詞匯列表中的人名被包含(是),則控制進(jìn)行到步驟S604。否則(否),控制進(jìn)行到步驟S602。
在步驟S604中,當(dāng)在步驟S602中提取該人名時(shí),被提取的名字被顯示在連接到語(yǔ)音通信單元102的終端屏幕(LCD顯示單元109)上,并且通過(guò)應(yīng)答語(yǔ)音控制電路110的語(yǔ)音通知來(lái)通知該被提取名字。
然后,控制進(jìn)行到步驟S605。如圖26中所示,首先,表示要被執(zhí)行的處理的字詞或者請(qǐng)求說(shuō)出表示要被再次執(zhí)行的處理的字詞的消息被顯示在LCD顯示單元109上。然后,由話筒103所檢測(cè)的語(yǔ)音被讀取,并且語(yǔ)音指令識(shí)別電路106識(shí)別作為一個(gè)被登記字詞的表示要被執(zhí)行的處理的字詞是否包含在該語(yǔ)音中,或者表示要被再次執(zhí)行的處理的字詞是否包含在該語(yǔ)音中。然后,確定由話筒103檢測(cè)的語(yǔ)音是否包含作為一個(gè)被登記字詞的表示要被執(zhí)行的處理的字詞,或者表示要被再次執(zhí)行的處理的字詞。如果其中包含表示要被執(zhí)行的處理的字詞(是),則控制進(jìn)行到步驟S606。否則(否),控制進(jìn)行到步驟S602。用戶確定被提取的名字是否是一個(gè)所需的結(jié)果。如果是一個(gè)所需的結(jié)果,則說(shuō)出表示預(yù)先登記的處理的字詞(例如,“發(fā)出呼叫”等等),并且語(yǔ)音指令識(shí)別電路106執(zhí)行識(shí)別輸入語(yǔ)音命令的處理。
在步驟S606中,對(duì)應(yīng)于在步驟S602中提取的人名的電話號(hào)碼被從該名字詞匯列表中讀取,對(duì)應(yīng)于該電話號(hào)碼的AT命令被從語(yǔ)音指令信息存儲(chǔ)器107調(diào)用,并且該AT命令被發(fā)送到語(yǔ)音通信單元102。然后,如上文所述,如果該字詞被識(shí)別為一個(gè)預(yù)先登記的字詞“發(fā)出呼叫”,則用于發(fā)出相應(yīng)電話號(hào)碼的AT命令(ATD)被從中央控制電路108發(fā)送到語(yǔ)音通信單元102,并且執(zhí)行線路連接處理。如果通信相對(duì)方響應(yīng)呼叫聲而處于摘機(jī)狀態(tài),則完成線路連接,并且執(zhí)行語(yǔ)音通信。
另一方面,如果被提取名字不是所需的,則發(fā)出表示要被再次執(zhí)行的處理的語(yǔ)音命令,例如“再一次”,并且識(shí)別在語(yǔ)音指令識(shí)別電路106中輸入的語(yǔ)音。如上文所述,如果例如“再一次”這樣的被預(yù)先登記的字詞被識(shí)別,則控制進(jìn)行到接受人名的發(fā)音的一個(gè)步驟(S602),并且該系統(tǒng)進(jìn)入接受新的人名的狀態(tài)。
圖7示出由語(yǔ)音指令識(shí)別電路106所執(zhí)行的語(yǔ)音識(shí)別處理的一個(gè)例子。該語(yǔ)音識(shí)別處理的處理不被具體指定。但是,根據(jù)本實(shí)施例,與第一實(shí)施例中相同,使用隱藏的馬爾可夫模型(在下文中簡(jiǎn)稱為HMM)的處理被采用。當(dāng)執(zhí)行語(yǔ)音識(shí)別處理時(shí),首先由話筒103所檢測(cè)的語(yǔ)音被在傅利葉變換或者小波變換中轉(zhuǎn)換為數(shù)字化頻譜,并且使用例如對(duì)該頻譜的線性預(yù)測(cè)分析、倒譜分析等等這樣的語(yǔ)音模擬方法來(lái)特征化該語(yǔ)音數(shù)據(jù)。然后,對(duì)于該特征化的語(yǔ)音數(shù)據(jù),使用維特比算法計(jì)算預(yù)先在該語(yǔ)音識(shí)別處理中讀取的登記在詞匯網(wǎng)絡(luò)120中的每個(gè)字詞的聲音模型121的似然性。在對(duì)應(yīng)于一個(gè)語(yǔ)音單元中的串聯(lián)(語(yǔ)音單元標(biāo)簽序列)的HMM的串聯(lián)網(wǎng)絡(luò)中模擬該被登記字詞。并且詞匯網(wǎng)絡(luò)120被模擬為對(duì)應(yīng)于登記在該被登記詞匯列表中的被登記字詞組的一個(gè)串聯(lián)網(wǎng)絡(luò)。每個(gè)被登記字詞由音素等等語(yǔ)音單元所構(gòu)成,并且對(duì)每個(gè)語(yǔ)音單元計(jì)算似然性。當(dāng)檢測(cè)用戶發(fā)音結(jié)束時(shí),從被登記詞匯列表中檢測(cè)具有最大似然性的累計(jì)值的被登記字詞,并且輸出該被登記字詞作為被識(shí)別為在該語(yǔ)音中包含的被登記字詞而輸出。
另外,與第一實(shí)施例相同,用于識(shí)別多余字詞的虛擬模型23被與被登記字詞的詞匯網(wǎng)絡(luò)120并列地提供。通過(guò)該結(jié)構(gòu),當(dāng)作為多余字詞的不包含被登記字詞的語(yǔ)音和噪聲被作為語(yǔ)音而輸入時(shí),對(duì)應(yīng)于該多余字詞的虛擬模型23的似然性被計(jì)算為比該被登記字詞的似然性更大,并且確定一個(gè)多余字詞已經(jīng)被輸入,從而避免把不包含被登記字詞的發(fā)音等等錯(cuò)誤識(shí)別為一個(gè)被登記字詞。
圖27為通過(guò)用戶說(shuō)出一個(gè)電話號(hào)碼而由中央控制電路108執(zhí)行一個(gè)發(fā)出操作的算術(shù)處理的流程圖。也就是說(shuō),圖27示出與使用電話號(hào)碼的呼叫發(fā)出操作相關(guān)的處理方案。在該流程圖中,盡管沒(méi)有用于通信的步驟,但是在任何時(shí)候,在該算術(shù)處理中獲得的信息被更新并且存儲(chǔ)在該存儲(chǔ)設(shè)備中,以及必要信息被從該存儲(chǔ)設(shè)備中讀取。當(dāng)執(zhí)行算術(shù)處理時(shí),首先在步驟S701中,通過(guò)檢測(cè)掛機(jī)狀態(tài)以及接收呼叫發(fā)出的狀態(tài)而確認(rèn)語(yǔ)音通信單元102的初始狀態(tài)。實(shí)踐中,通過(guò)接收來(lái)自語(yǔ)音通信單元102的狀態(tài)信號(hào)而確定是否處于掛機(jī)狀態(tài)。如果處于掛機(jī)狀態(tài)(是),則控制進(jìn)行到步驟S702。否則(否),該處理流程被重復(fù)執(zhí)行。
在步驟S702中,確定是否進(jìn)入用于接受任意電話號(hào)碼的電話號(hào)碼確認(rèn)模式。如果進(jìn)入該模式(是),則控制進(jìn)行到步驟S704。否則(否),控制進(jìn)行到步驟S703。在步驟S703中,由話筒103所檢測(cè)的語(yǔ)音被讀取,該語(yǔ)音指令識(shí)別電路106識(shí)別是否包含作為一個(gè)被登記字詞的用于接收電話號(hào)碼的預(yù)先登記的語(yǔ)音命令。如果是與電話號(hào)碼識(shí)別模式不同的一個(gè)名字識(shí)別模式等等,則說(shuō)出用于接收電話號(hào)碼的預(yù)先登記的語(yǔ)音命令。
在步驟S704中,首先調(diào)用用于根據(jù)對(duì)應(yīng)于任意電話號(hào)碼的數(shù)字?jǐn)?shù)目識(shí)別一系列號(hào)碼的號(hào)碼詞匯列表,作為一個(gè)被登記詞匯列表。接著,如圖28中所示,請(qǐng)求說(shuō)出一個(gè)電話號(hào)碼的消息被顯示在LCD顯示單元109上。由話筒103所檢測(cè)的語(yǔ)音被讀取,并且語(yǔ)音指令識(shí)別電路106識(shí)別是否包含作為包含在該語(yǔ)音中的被登記字詞的一系列號(hào)碼。例如,“按照號(hào)碼進(jìn)行電話呼叫”是被登記用于接受電話號(hào)碼的語(yǔ)音命令。當(dāng)用戶說(shuō)出“按照號(hào)碼進(jìn)行電話呼叫”時(shí),語(yǔ)音指令識(shí)別電路106識(shí)別通過(guò)話筒103輸入的語(yǔ)音。如果“按照號(hào)碼進(jìn)行電話呼叫”被識(shí)別,則語(yǔ)音指令識(shí)別電路106上載用于識(shí)別在語(yǔ)音指令識(shí)別電路的存儲(chǔ)器中的任何電話號(hào)碼的號(hào)碼詞匯列表,從而進(jìn)入電話號(hào)碼接受模式。該用戶繼續(xù)說(shuō)出例如“03-3356-1234”(“-”沒(méi)有發(fā)音)這樣的所需電話號(hào)碼用于識(shí)別。
用于任何電話號(hào)碼的識(shí)別的號(hào)碼詞匯列表參照基于使用電話的國(guó)家和地區(qū)的一串字符串所形成的一些模式、電話通信系統(tǒng)、通信相對(duì)方的國(guó)家和地區(qū)。例如,當(dāng)從日本以預(yù)定電話模式發(fā)出呼叫時(shí),該模式由“0-城市間代碼-城市內(nèi)部代碼-用戶號(hào)碼”所表示,即總共10個(gè)數(shù)字(在特定區(qū)域中為9個(gè)數(shù)字)的號(hào)碼序列形成多個(gè)詞匯列表。在城市間代碼和城市內(nèi)部代碼之間或者在城市內(nèi)部代碼和用戶號(hào)碼之間可以插入“no”和表示空格的語(yǔ)音單元,使得說(shuō)出一個(gè)電話號(hào)碼的用戶的冗余性可以被修正。
當(dāng)從日本向移動(dòng)電話或者在日本的PHS發(fā)出呼叫時(shí),準(zhǔn)備由以“0A0(A表示除了0之外的單個(gè)數(shù)字)”為開(kāi)頭的一系列11個(gè)數(shù)字所形成的詞匯列表。另外,還存在由相關(guān)部門(mén)制定的由根據(jù)表示每個(gè)電信公司的號(hào)碼串的號(hào)碼串所形成的專用號(hào)碼詞匯列表。表2列出由該部門(mén)所公布的在日本的電話號(hào)碼模式。
如上文所述,根據(jù)本發(fā)明,當(dāng)識(shí)別一個(gè)電話號(hào)碼時(shí),用戶僅僅需要連續(xù)地說(shuō)出對(duì)應(yīng)于一個(gè)電話號(hào)碼的全部數(shù)字,從而短時(shí)間內(nèi)識(shí)別電話號(hào)碼。在逐個(gè)數(shù)字地識(shí)別電話號(hào)碼的方法中,需要長(zhǎng)時(shí)間來(lái)正確地識(shí)別所有數(shù)字。
表2
根據(jù)由語(yǔ)音指令識(shí)別電路106所使用的語(yǔ)音識(shí)別引擎的識(shí)別精度,適當(dāng)?shù)厥褂冒衙總€(gè)號(hào)碼詞匯列表分配給語(yǔ)音指令識(shí)別電路106的方法。一種方法是動(dòng)態(tài)地確定當(dāng)由話筒103通過(guò)語(yǔ)音輸入時(shí)動(dòng)態(tài)地確定從該號(hào)碼串的開(kāi)頭識(shí)別的號(hào)碼串的模式(3至4個(gè)數(shù)字),并且動(dòng)態(tài)地把該模式分配到當(dāng)識(shí)別該模式時(shí)選擇的號(hào)碼詞匯列表。在該方法中,例如當(dāng)識(shí)別出一個(gè)號(hào)碼“0(零)”,在前3個(gè)數(shù)字串中的第一和第三數(shù)字之間時(shí),這在日本被認(rèn)為是移動(dòng)電話的電話號(hào)碼的模式、PHS等等,并且分配用于識(shí)別8數(shù)字串的號(hào)碼詞匯列表(總共11個(gè)數(shù)字)或者特定號(hào)碼串。
在另一種方法中,所有號(hào)碼詞匯列表被統(tǒng)計(jì)地讀取到語(yǔ)音指令識(shí)別電路106中,從由用戶輸入的電話號(hào)碼開(kāi)頭計(jì)算表示對(duì)特定號(hào)碼的適用性的似然性為隨時(shí)間變化的平均值。因此,剩下幾種有希望的可能模式,并且其他模式被從該算術(shù)操作中除去。最后,當(dāng)檢測(cè)發(fā)音部分時(shí),獲得具有最大似然性的模式,并且確定可能的號(hào)碼。在這些方法中,從大量可能的號(hào)碼串中選擇一個(gè)模式,可以提高識(shí)別精度,并且可以減小在識(shí)別中所需的算術(shù)操作的負(fù)擔(dān),從而把說(shuō)出的號(hào)碼連續(xù)地識(shí)別為電話號(hào)碼。
在步驟S705中,在步驟S704中識(shí)別的電話號(hào)碼被顯示在LCD顯示單元109上,這些識(shí)別結(jié)果被發(fā)送到應(yīng)答語(yǔ)音控制電路110,并且該電話號(hào)碼被通知到A/D轉(zhuǎn)換器105。
然后,控制進(jìn)行到步驟S706。首先,表示要被執(zhí)行的處理的字詞或者請(qǐng)求發(fā)出表示要被再次執(zhí)行的處理的字詞的消息被顯示在LCD顯示單元109上。然后,由話筒103所檢測(cè)的語(yǔ)音被讀取,并且語(yǔ)音指令識(shí)別電路106識(shí)別表示要被執(zhí)行的處理的作為所包含的被登記字詞的字詞是否包含在該語(yǔ)音,或者識(shí)別表示要被再次執(zhí)行的字詞是否包含在該語(yǔ)音中。然后,確定由話筒103所檢測(cè)的語(yǔ)音是否包含作為一個(gè)被登記字詞的表示要被執(zhí)行的處理的字詞,或者表示要被再次執(zhí)行的處理的字詞。如果它包含表示要被執(zhí)行的處理的字詞(在步驟S706’中為“是”),然后控制進(jìn)行到步驟S707。否則(在步驟S706”中為“否”),然后控制進(jìn)行到步驟S704。
在步驟S707中,從語(yǔ)音指令信息存儲(chǔ)器107調(diào)用對(duì)應(yīng)于在步驟S704中提取的電話號(hào)碼的AT命令,并且該AT命令被發(fā)送到語(yǔ)音通信單元102。
圖29為通過(guò)用戶說(shuō)出表示通信終止的字詞而由中央控制電路108執(zhí)行摘機(jī)操作的算術(shù)處理的流程圖。也就是說(shuō),圖29示出與用于終止通信的掛機(jī)操作相關(guān)的處理方案。在該流程圖中,盡管沒(méi)有用于通信的步驟,但是在任何時(shí)候,包含在該算術(shù)處理中的信息被更新和存儲(chǔ)在該存儲(chǔ)設(shè)備中,并且從該存儲(chǔ)設(shè)備讀取必要信息。當(dāng)執(zhí)行該算術(shù)處理時(shí),首先在步驟S801中,通過(guò)檢測(cè)摘機(jī)狀態(tài),語(yǔ)音通信單元102的操作狀態(tài)被確認(rèn)為通信模式。實(shí)踐中,通過(guò)接收來(lái)自語(yǔ)音通信單元102的狀態(tài)信號(hào)確定它是否處于摘機(jī)狀態(tài)。如果處于摘機(jī)狀態(tài)(是),則控制進(jìn)行到步驟S802。否則(否),該處理流程被重復(fù)執(zhí)行。
在步驟S802中首先作為被登記詞匯列表,在通信過(guò)程中和在通信結(jié)束時(shí)預(yù)先登記的所需唯一必要的語(yǔ)音命令的通信操作詞匯列表被讀取。然后,由話筒103所檢測(cè)的語(yǔ)音被讀取,并且語(yǔ)音指令識(shí)別電路106識(shí)別是否包含作為包含在該語(yǔ)音中的被登記字詞表示通信結(jié)束的語(yǔ)音命令。然后,在步驟S803中,從語(yǔ)音指令信息存儲(chǔ)器107調(diào)用表示線路斷開(kāi)的AT命令,并且該AT命令被發(fā)送到語(yǔ)音通信單元102。因此,如果由用戶說(shuō)出表示通信結(jié)束的語(yǔ)音命令,例如“斷開(kāi)線路”,則語(yǔ)音指令識(shí)別電路106識(shí)別通過(guò)話筒103輸入的語(yǔ)音。如果“斷開(kāi)線路”被識(shí)別,則表示線路斷開(kāi)的控制代碼被從中央控制電路108發(fā)送到使用AT命令(ATH)的語(yǔ)音通信單元102,從而完成線路的斷開(kāi)。
圖30為通過(guò)用戶說(shuō)出表示入局呼叫的字詞而由中央控制電路108所執(zhí)行的摘機(jī)操作的算術(shù)處理等等的流程圖。也就是說(shuō),圖30示出與用于接收入局呼叫的摘機(jī)操作相關(guān)的處理方案。在該流程圖中,盡管沒(méi)有用于通信的步驟,但是在任何時(shí)候,在該算術(shù)處理中獲得的信息被更新和存儲(chǔ)在該存儲(chǔ)設(shè)備中,并且從該存儲(chǔ)設(shè)備讀取必要信息。當(dāng)執(zhí)行算術(shù)處理時(shí),首先在步驟S901中,通過(guò)檢測(cè)掛機(jī)狀態(tài),語(yǔ)音通信單元102的操作狀態(tài)被確認(rèn)為待機(jī)狀態(tài)。實(shí)踐中,通過(guò)接收來(lái)自語(yǔ)音通信單元102的狀態(tài)信號(hào)確定它是否處于掛機(jī)狀態(tài)。如果處于掛機(jī)狀態(tài)(是),則控制進(jìn)行到步驟S902。否則(否),該處理流程被重復(fù)執(zhí)行。
在步驟S902中,確定表示入局呼叫的結(jié)果代碼是否已經(jīng)被從語(yǔ)音通信單元102接收。如果該結(jié)果代碼已經(jīng)被接收(是),則通知呼叫接收信號(hào)已經(jīng)被接收的消息被顯示在LCD顯示單元109上,并且該消息被發(fā)送到應(yīng)答語(yǔ)音控制電路110,由A/D轉(zhuǎn)換器105通知該消息,然后控制進(jìn)行到步驟S903。否則(否),該處理流程被重復(fù)執(zhí)行。也就是說(shuō),如果語(yǔ)音通信單元102接收通知入局呼叫的接收的信號(hào),則它把表示入局呼叫的接收的結(jié)果代碼發(fā)送到該語(yǔ)音識(shí)別單元的中央控制電路。在接收到該入局呼叫信號(hào)之后,該語(yǔ)音識(shí)別單元在LCD顯示單元109上顯示通知該入局呼叫信號(hào)的接收的內(nèi)容,并且同時(shí)使得擴(kuò)音器1通過(guò)語(yǔ)音通知入局呼叫的接收。在此時(shí),如果該入局呼叫信號(hào)包含目標(biāo)信息,則該信息被與登記在該名字詞匯列表中的目標(biāo)相比較。如果輸出匹配結(jié)果。則可以通過(guò)語(yǔ)音在該屏幕上向用戶顯示關(guān)于“來(lái)自au先生的呼叫”等等這樣的更加具體的信息。
另外,該目標(biāo)信息可以被存儲(chǔ)在存儲(chǔ)器中,并且可以通知“該電話號(hào)碼要被記錄?”等等,指示說(shuō)出與預(yù)先登記的語(yǔ)音指令相關(guān)的字詞,例如“新登記”、“附加登記”等等,并且通過(guò)語(yǔ)音把新的目標(biāo)數(shù)據(jù)登記在該名字詞匯列表中。
在步驟S903中,與對(duì)入局呼叫的響應(yīng)相關(guān)的呼叫接收操作詞匯列表被讀取到語(yǔ)音指令識(shí)別電路106中,作為一個(gè)被登記詞匯列表。然后,LCD顯示單元109顯示請(qǐng)求說(shuō)出表示摘機(jī)的字詞或者表示掛機(jī)的字詞的消息。另外,通過(guò)話筒103檢測(cè)的語(yǔ)音被讀取,并且該語(yǔ)音指令識(shí)別電路106識(shí)別作為包含在該語(yǔ)音中的被登記字詞的表示摘機(jī)的字詞是否被包含。然后,確定由話筒103所檢測(cè)的語(yǔ)音是否包含作為一個(gè)被登記字詞的表示摘機(jī)的字詞,或者是否包含表示掛機(jī)的字詞。如果表示摘機(jī)的字詞被包含(在步驟S903’中為“是”),則控制進(jìn)行到步驟S904。如果表示掛機(jī)的字詞被包含(在在步驟S903”中為“否”),則控制進(jìn)行到步驟S905。也就是說(shuō),當(dāng)接收入局呼叫時(shí),語(yǔ)音指令識(shí)別電路106讀取與該響應(yīng)相關(guān)的呼叫接收操作詞匯列表,并且用戶根據(jù)情況確定是否要應(yīng)答該呼叫。當(dāng)應(yīng)答該呼叫時(shí),說(shuō)出表示摘機(jī)并且預(yù)先登記的字詞,例如“應(yīng)答該電話”。如果由該語(yǔ)音指令識(shí)別電路確定通過(guò)話筒103輸入的語(yǔ)音是否為“應(yīng)答該電話”。
在步驟S904中,從語(yǔ)音指令信息存儲(chǔ)器107調(diào)用表示摘機(jī)的AT命令,并且該AT命令被發(fā)送到語(yǔ)音通信單元102。也就是說(shuō),當(dāng)獲得識(shí)別結(jié)果“應(yīng)答該電話”時(shí),表示摘機(jī)的AT命令(ATA)被從中央控制電路108發(fā)送到該語(yǔ)音通信單元,進(jìn)入通信模式,并且使用話筒2和擴(kuò)音器2執(zhí)行語(yǔ)音通信。
另一方面,在步驟S905中,從語(yǔ)音指令信息存儲(chǔ)器107調(diào)用表示掛機(jī)的AT命令,并且該AT命令被發(fā)送到語(yǔ)音通信單元102。也就是說(shuō),當(dāng)用戶不希望應(yīng)答該呼叫時(shí),說(shuō)出表示線路斷開(kāi)和預(yù)先登記的字詞,例如“斷開(kāi)該線路”。由該語(yǔ)音指令識(shí)別電路識(shí)別和確定通過(guò)話筒103輸入的語(yǔ)音是否為“斷開(kāi)線路”。如果獲得“斷開(kāi)線路”的識(shí)別結(jié)果,則表示線路斷開(kāi)的AT命令(ATM)被從中央控制電路發(fā)送到該語(yǔ)音通信單元,從而斷開(kāi)該入局呼叫信號(hào)。
當(dāng)通過(guò)語(yǔ)音識(shí)別單元的初始化使得振鈴的頻率到達(dá)預(yù)定值時(shí),自動(dòng)發(fā)出摘機(jī)的控制代碼,或者發(fā)出應(yīng)答電話模式的控制代碼。因此,可以進(jìn)入用戶要求的模式。
在上述一系列語(yǔ)音識(shí)別操作中,具有根據(jù)本發(fā)明的語(yǔ)音識(shí)別功能的電話通信終端具有語(yǔ)音指令識(shí)別電路106,其中語(yǔ)音檢測(cè)算法(VAD)繼續(xù)操作,而與語(yǔ)音輸入的存在與否無(wú)關(guān)。根據(jù)該VAD,重復(fù)確定是否包含通過(guò)話筒103輸入噪聲的所有聲音表示無(wú)輸入狀態(tài)、輸入語(yǔ)音的狀態(tài)或者語(yǔ)音輸入完成的狀態(tài)。
由于語(yǔ)音指令識(shí)別電路106持續(xù)操作該語(yǔ)音識(shí)別算法,因此可以容易地輸入用于語(yǔ)音識(shí)別的多余聲音和字詞。因此,存在通過(guò)正確地識(shí)別多余字詞和聲音來(lái)避免故障的拒絕功能。用于識(shí)別多余字詞的方法可以是由H.Boulard、B.Dhoore和J.M.Boite在“Optimizing Recognition andRejection Performance in Wordspotting Systems,”P(pán)roc.ICASSP,Adelaide,Australia,pp.1-373-376,1994等等提出的一種干擾模型方法。
如圖28中所示,根據(jù)VAD的內(nèi)部處理的3個(gè)狀態(tài),即當(dāng)語(yǔ)音處于無(wú)輸入狀態(tài)時(shí),定時(shí)通知圖像30被表示為綠色,當(dāng)語(yǔ)音處于輸入語(yǔ)音狀態(tài)時(shí),表示為黃色,并且當(dāng)該語(yǔ)音處于語(yǔ)音輸入完成狀態(tài)時(shí),表示為紅色。該定時(shí)通知圖像30被顯示在LCD顯示單元109的上部。同時(shí),電平測(cè)量器31被顯示在LCD顯示單元109的右端。該電平測(cè)量器31根據(jù)由話筒103所檢測(cè)的語(yǔ)音的音量而向上延伸。也就是說(shuō),電平測(cè)量器31的數(shù)值隨著語(yǔ)音的音量而增加。然后,上述VAD的內(nèi)部處理的3個(gè)狀態(tài),即定時(shí)通知圖像30被顯示在語(yǔ)音識(shí)別單元101的LCD顯示設(shè)備62上,并且該發(fā)音的開(kāi)始時(shí)間被通知給用戶。結(jié)果,可以區(qū)別必要的發(fā)音與多余聲音和字詞,并且由話筒103所檢測(cè)的語(yǔ)音的電平可以由電平測(cè)量器31通知。因此,用戶可以由適當(dāng)?shù)囊袅克絹?lái)支持。結(jié)果,可以容易地識(shí)別被登記字詞。
根據(jù)本發(fā)明,語(yǔ)音識(shí)別單元101的話筒103和擴(kuò)音器113、語(yǔ)音通信單元102的話筒115和擴(kuò)音器116對(duì)應(yīng)于語(yǔ)音輸入/輸出裝置,該語(yǔ)音指令識(shí)別電路106對(duì)應(yīng)于語(yǔ)音識(shí)別裝置,語(yǔ)音指令信息存儲(chǔ)器107對(duì)應(yīng)于存儲(chǔ)裝置,LCD顯示單元109對(duì)應(yīng)于屏幕顯示裝置,中央控制電路108對(duì)應(yīng)于控制裝置,話筒103對(duì)應(yīng)于語(yǔ)音檢測(cè)裝置,定時(shí)通知圖像30對(duì)應(yīng)于發(fā)音時(shí)序通知裝置,以及電平測(cè)量器31對(duì)應(yīng)于音量通知裝置。
上述實(shí)施例僅僅是根據(jù)本發(fā)明的語(yǔ)音識(shí)別方法、遙控器、信息終端、電話通信終端和語(yǔ)音識(shí)別器的例子,并且不限于該裝置的結(jié)構(gòu)。
例如,在上述實(shí)施例中,遙控器、信息終端和電話通信終端被獨(dú)立地形成,但是它們不限于這些應(yīng)用。例如,根據(jù)第一實(shí)施例的遙控器本體1或者根據(jù)本發(fā)明第三實(shí)施例的電話通信終端可以具有根據(jù)第二實(shí)施例的通信單元52,從而遙控器本體1可以根據(jù)該語(yǔ)音識(shí)別結(jié)果執(zhí)行電子郵件發(fā)送和接收功能、日程安排管理功能、語(yǔ)音備忘錄處理功能、語(yǔ)音定時(shí)器功能。利用該結(jié)構(gòu),如在第二實(shí)施例中,用戶可以僅僅通過(guò)說(shuō)出被登記字詞而不進(jìn)行實(shí)際操作來(lái)使用每個(gè)功能。
另外,根據(jù)第一實(shí)施例的遙控器本體1被提供有根據(jù)第三實(shí)施例的語(yǔ)音通信單元102,以使得遙控器本體1執(zhí)行語(yǔ)音識(shí)別,并且可以根據(jù)語(yǔ)音識(shí)別結(jié)果執(zhí)行電話操作。因此,如在第三實(shí)施例中,盡管用戶與一個(gè)相對(duì)方進(jìn)行通信并且語(yǔ)音通信單元102的話筒115和擴(kuò)音器116被該通信所占用,但是可以把語(yǔ)音輸入到遙控器本體1,并且可以控制語(yǔ)音通信單元102。
另外,第一實(shí)施例的遙控器本體1可以被提供有根據(jù)第二實(shí)施例的通信單元52和根據(jù)第三實(shí)施例的語(yǔ)音通信單元102,從而遙控器本體1可以執(zhí)行語(yǔ)音識(shí)別。根據(jù)該語(yǔ)音識(shí)別結(jié)果,可以執(zhí)行電話操作。另外,根據(jù)該語(yǔ)音識(shí)別結(jié)果,可以執(zhí)行電子郵件發(fā)送和接收功能、日程安排管理功能、語(yǔ)音備忘錄處理功能、語(yǔ)音定時(shí)器功能等等。利用該結(jié)構(gòu),如在第二實(shí)施例中,用戶可以僅僅通過(guò)說(shuō)出被登記字詞而沒(méi)有任何實(shí)際操作來(lái)使用每個(gè)功能。另外,如在第三實(shí)施例中,盡管用戶與一個(gè)相對(duì)方進(jìn)行通信,并且語(yǔ)音通信單元102的話筒115和擴(kuò)音器116被該通信所占用,但是可以把語(yǔ)音輸入到遙控器本體1,并且可以控制該語(yǔ)音通信單元102。
工業(yè)應(yīng)用性如上文所述,根據(jù)本發(fā)明的語(yǔ)音識(shí)別方法還使用維特比算法在該比較處理中對(duì)除了被登記字詞之外的多余字詞計(jì)算語(yǔ)音單元標(biāo)簽序列的似然性。如果不包含被登記字詞的在普通生活條件下產(chǎn)生的噪聲,即除了被登記字詞之外的語(yǔ)音,被轉(zhuǎn)換為聲音參數(shù)序列時(shí),則用較大的結(jié)果數(shù)值計(jì)算對(duì)應(yīng)于與多余字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的聲音模型的似然性。根據(jù)該似然性,除了被登記字詞之外的語(yǔ)音可以被識(shí)別為多余字詞,從而避免把除了被登記字詞之外的語(yǔ)音錯(cuò)誤識(shí)別為被登記字詞。
另外,由于根據(jù)本發(fā)明的遙控器用語(yǔ)音識(shí)別方法識(shí)別包含在用戶的語(yǔ)音中的要被識(shí)別的字詞,則除了要被識(shí)別的字詞之外的發(fā)音或者噪聲,即在普通生活條件下產(chǎn)生的噪聲,可以被分配一個(gè)較高的拒絕率。因此,可以避免故障和錯(cuò)誤識(shí)別。另外,根據(jù)本發(fā)明的信息終端用該語(yǔ)音識(shí)別方法識(shí)別包含在用戶的語(yǔ)音中的被登記字詞。因此,當(dāng)由用戶發(fā)出不包含被登記字詞的例如在普通生活條件下產(chǎn)生的噪聲這樣的語(yǔ)音(即除了被登記字詞之外的語(yǔ)音)時(shí),對(duì)于該語(yǔ)音的聲音參數(shù)序列計(jì)算的對(duì)應(yīng)于與多余字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的聲音模型的似然性被計(jì)算為較大。根據(jù)該似然性,除了被登記字詞之外的語(yǔ)音可以被識(shí)別為一個(gè)多余字詞,從而避免除了被登記字詞之外的語(yǔ)音被錯(cuò)誤識(shí)別為被登記字詞,并且避免信息終端的故障。
根據(jù)本發(fā)明的電話通信終端可以持續(xù)地執(zhí)行語(yǔ)音識(shí)別。當(dāng)發(fā)出一個(gè)呼叫時(shí),可以用表示一個(gè)電話號(hào)碼或說(shuō)出的任意電話號(hào)碼的關(guān)鍵字減少錯(cuò)誤識(shí)別。當(dāng)電話號(hào)碼本身被識(shí)別時(shí),可以按照逐個(gè)數(shù)字識(shí)別發(fā)音,而不把主叫方的發(fā)音限制為連續(xù)的號(hào)碼發(fā)音。在接收方,可以使用語(yǔ)音輸入執(zhí)行摘機(jī)操作。因此,在發(fā)出和接收呼叫中可以免提地執(zhí)行電話操作。也就是說(shuō),由于通信單元和語(yǔ)音識(shí)別單元具有通信單元的各自和獨(dú)立的輸入/輸出系統(tǒng),因此盡管用戶與相對(duì)方進(jìn)行通信,并且該通信單元的輸入/輸出系統(tǒng)被該通信所占用,用戶的語(yǔ)音可以被輸入到語(yǔ)音識(shí)別單元,并且可以控制該通信單元。
權(quán)利要求
1.一種通過(guò)語(yǔ)音對(duì)多個(gè)操作目標(biāo)進(jìn)行遠(yuǎn)程控制的遙控器,其中包括存儲(chǔ)裝置,用于存儲(chǔ)表示遠(yuǎn)程操作的要被識(shí)別的字詞;用于輸入由用戶所發(fā)出的語(yǔ)音的裝置;語(yǔ)音識(shí)別裝置,用于使用該存儲(chǔ)裝置識(shí)別要被識(shí)別并且包含在由用戶所發(fā)出的語(yǔ)音中的字詞;以及發(fā)送裝置,用于發(fā)送對(duì)應(yīng)于要被識(shí)別和實(shí)際被該語(yǔ)音識(shí)別裝置所識(shí)別的字詞的設(shè)備控制信號(hào),其中語(yǔ)音識(shí)別裝置使用以下語(yǔ)音識(shí)別方法一種語(yǔ)音識(shí)別方法,其通過(guò)把要被識(shí)別語(yǔ)音的目標(biāo)人員的輸入語(yǔ)音轉(zhuǎn)換為聲音參數(shù)序列,并且使用維特比算法把該聲音參數(shù)序列與對(duì)應(yīng)于關(guān)于被登記字詞的語(yǔ)音單元標(biāo)簽序列的聲音模型相比較而執(zhí)行語(yǔ)音識(shí)別,該方法包括把用于識(shí)別除了被登記字詞之外的多余字詞的語(yǔ)音單元標(biāo)簽序列與用于被登記字詞的語(yǔ)音單元標(biāo)簽序列相并列,其中在使用維特比算法的比較處理中還為除了被登記字詞之外的多余字詞計(jì)算語(yǔ)音單元標(biāo)簽序列的似然性,從而在需要字詞被作為輸入語(yǔ)音而輸入時(shí),成功地把上述多余的字詞識(shí)別為多余的字詞,其特征在于對(duì)應(yīng)于該語(yǔ)音單元標(biāo)簽序列的所述聲音模型是使用隱藏的馬爾可夫模型的聲音模型,并且用于識(shí)別多余字詞的語(yǔ)音單元標(biāo)簽序列是通過(guò)均衡所有可用語(yǔ)音單元模型而獲得的虛擬語(yǔ)音單元模型。
2.根據(jù)權(quán)利要求1所述的遙控器,進(jìn)一步包括語(yǔ)音輸入單元,用于允許用戶執(zhí)行通信;以及通信單元,用于根據(jù)要由該語(yǔ)音識(shí)別裝置所識(shí)別的字詞控制對(duì)通信線路的設(shè)置狀態(tài),其特征在于該語(yǔ)音輸入裝置和該通信單元的語(yǔ)音輸入單元可以分別提供。
3.根據(jù)權(quán)利要求1所述的遙控器,其特征在于進(jìn)一步包括控制裝置,用于執(zhí)行通過(guò)語(yǔ)音發(fā)送和接收郵件的處理、通過(guò)語(yǔ)音管理日程安排的處理、通過(guò)語(yǔ)音進(jìn)行備忘錄處理以及通過(guò)語(yǔ)音進(jìn)行通知處理中的至少一個(gè)處理。
4.一種通過(guò)語(yǔ)音對(duì)多個(gè)操作目標(biāo)進(jìn)行遠(yuǎn)程控制的遙控器,其中包括存儲(chǔ)裝置,用于存儲(chǔ)表示遠(yuǎn)程操作的要被識(shí)別的字詞;用于輸入由用戶所發(fā)出的語(yǔ)音的裝置;語(yǔ)音識(shí)別裝置,用于使用該存儲(chǔ)裝置識(shí)別要被識(shí)別并且包含在由用戶所發(fā)出的語(yǔ)音中的字詞;以及發(fā)送裝置,用于發(fā)送對(duì)應(yīng)于要被識(shí)別和實(shí)際被該語(yǔ)音識(shí)別裝置所識(shí)別的字詞的設(shè)備控制信號(hào),其中語(yǔ)音識(shí)別裝置使用以下語(yǔ)音識(shí)別方法一種語(yǔ)音識(shí)別方法,其通過(guò)把要被識(shí)別語(yǔ)音的目標(biāo)人員的輸入語(yǔ)音轉(zhuǎn)換為聲音參數(shù)序列,并且使用維特比算法把該聲音參數(shù)序列與對(duì)應(yīng)于關(guān)于被登記字詞的語(yǔ)音單元標(biāo)簽序列的聲音模型相比較而執(zhí)行語(yǔ)音識(shí)別,該方法包括把用于識(shí)別除了被登記字詞之外的多余字詞的語(yǔ)音單元標(biāo)簽序列與用于被登記字詞的語(yǔ)音單元標(biāo)簽序列相并列,其中在使用維特比算法的比較處理中還為除了被登記字詞之外的多余字詞計(jì)算語(yǔ)音單元標(biāo)簽序列的似然性,從而在需要字詞被作為輸入語(yǔ)音而輸入時(shí),成功地把上述多余的字詞識(shí)別為多余的字詞,其特征在于對(duì)應(yīng)于該語(yǔ)音單元標(biāo)簽序列的所述聲音模型是使用隱藏的馬爾可夫模型的聲音模型,并且用于識(shí)別多余字詞的語(yǔ)音單元標(biāo)簽序列構(gòu)成從僅僅對(duì)應(yīng)于元音的音素的一組音素模型的結(jié)束點(diǎn)到開(kāi)始點(diǎn)的自循環(huán)。
5.根據(jù)權(quán)利要求4所述的遙控器,進(jìn)一步包括語(yǔ)音輸入單元,用于允許用戶執(zhí)行通信;以及通信單元,用于根據(jù)要由該語(yǔ)音識(shí)別裝置所識(shí)別的字詞控制對(duì)通信線路的設(shè)置狀態(tài),其特征在于該語(yǔ)音輸入裝置和該通信單元的語(yǔ)音輸入單元可以分別提供。
6.根據(jù)權(quán)利要求4所述的遙控器,其特征在于進(jìn)一步包括控制裝置,用于執(zhí)行通過(guò)語(yǔ)音發(fā)送和接收郵件的處理、通過(guò)語(yǔ)音管理日程安排的處理、通過(guò)語(yǔ)音進(jìn)行備忘錄處理以及通過(guò)語(yǔ)音進(jìn)行通知處理中的至少一個(gè)處理。
7.一種通過(guò)語(yǔ)音對(duì)多個(gè)操作目標(biāo)進(jìn)行遠(yuǎn)程控制的遙控器,其中包括存儲(chǔ)裝置,用于存儲(chǔ)表示遠(yuǎn)程操作的要被識(shí)別的字詞;用于輸入由用戶所發(fā)出的語(yǔ)音的裝置;語(yǔ)音識(shí)別裝置,用于使用該存儲(chǔ)裝置識(shí)別要被識(shí)別并且包含在由用戶所發(fā)出的語(yǔ)音中的字詞;以及發(fā)送裝置,用于發(fā)送對(duì)應(yīng)于要被識(shí)別和實(shí)際被該語(yǔ)音識(shí)別裝置所識(shí)別的字詞的設(shè)備控制信號(hào),其中語(yǔ)音識(shí)別裝置使用以下語(yǔ)音識(shí)別方法一種語(yǔ)音識(shí)別方法,其通過(guò)把要被識(shí)別語(yǔ)音的目標(biāo)人員的輸入語(yǔ)音轉(zhuǎn)換為聲音參數(shù)序列,并且使用維特比算法把該聲音參數(shù)序列與對(duì)應(yīng)于關(guān)于被登記字詞的語(yǔ)音單元標(biāo)簽序列的聲音模型相比較而執(zhí)行語(yǔ)音識(shí)別,該方法包括把用于識(shí)別除了被登記字詞之外的多余字詞的語(yǔ)音單元標(biāo)簽序列與用于被登記字詞的語(yǔ)音單元標(biāo)簽序列相并列,其中在使用維特比算法的比較處理中還為除了被登記字詞之外的多余字詞計(jì)算語(yǔ)音單元標(biāo)簽序列的似然性,從而在需要字詞被作為輸入語(yǔ)音而輸入時(shí),成功地把上述多余的字詞識(shí)別為多余的字詞,其特征在于對(duì)應(yīng)于該語(yǔ)音單元標(biāo)簽序列的所述聲音模型是使用隱藏的馬爾可夫模型的聲音模型,并且用于識(shí)別多余字詞的語(yǔ)音單元標(biāo)簽序列是通過(guò)均衡與構(gòu)造為僅僅元音的音素的自循環(huán)網(wǎng)絡(luò)的音素模型并行地提供的所有可用語(yǔ)音單元模型而獲得的虛擬語(yǔ)音單元模型。
8.根據(jù)權(quán)利要求7所述的遙控器,進(jìn)一步包括語(yǔ)音輸入單元,用于允許用戶執(zhí)行通信;以及通信單元,用于根據(jù)要由該語(yǔ)音識(shí)別裝置所識(shí)別的字詞控制對(duì)通信線路的設(shè)置狀態(tài),其特征在于該語(yǔ)音輸入裝置和該通信單元的語(yǔ)音輸入單元可以分別提供。
9.根據(jù)權(quán)利要求7所述的遙控器,其特征在于進(jìn)一步包括控制裝置,用于執(zhí)行通過(guò)語(yǔ)音發(fā)送和接收郵件的處理、通過(guò)語(yǔ)音管理日程安排的處理、通過(guò)語(yǔ)音進(jìn)行備忘錄處理以及通過(guò)語(yǔ)音進(jìn)行通知處理中的至少一個(gè)處理。
全文摘要
一種語(yǔ)音識(shí)別方法可以優(yōu)選地應(yīng)用于持續(xù)地執(zhí)行語(yǔ)音識(shí)別的設(shè)備,為該聲音參數(shù)序列計(jì)算對(duì)應(yīng)于與被登記字詞相關(guān)的語(yǔ)音單元標(biāo)簽序列的隱藏的馬爾可夫模型22的似然性以及對(duì)應(yīng)于用來(lái)識(shí)別除了被登記字詞之外的語(yǔ)音的語(yǔ)音單元標(biāo)簽序列的虛擬模型23的似然性,以及根據(jù)該似然性執(zhí)行語(yǔ)音識(shí)別。
文檔編號(hào)G10L15/14GK1819020SQ200610059780
公開(kāi)日2006年8月16日 申請(qǐng)日期2002年12月17日 優(yōu)先權(quán)日2001年12月17日
發(fā)明者柏原誠(chéng)一, 長(zhǎng)岸秀之, 長(zhǎng)濱克昌, 大石匡 申請(qǐng)人:旭化成株式會(huì)社