亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

終端器、服務器及語音辨識方法

文檔序號:2835823閱讀:228來源:國知局
專利名稱:終端器、服務器及語音辨識方法
技術(shù)領域
本發(fā)明所涉及的是終端器、服務器及語音辨識方法。更具體地講,是一種為進行自適應于各個使用者、各種利用環(huán)境的語音辨識處理的終端器、服務器及語音辨識方法。
背景技術(shù)
近年來,人們期待著在移動電話、移動終端、汽車電子自動導向系統(tǒng)、個人電腦等方面能夠使用語音辨識技術(shù),從而提高使用者的方便性。
語音辨識技術(shù)被各種各樣的使用者利用于各種各樣的環(huán)境中。移動電話、移動終端等所接受的利用環(huán)境中的背景雜音,其種類等時時刻刻都在發(fā)生著變化。即便是被固定放置的家庭內(nèi)部的終端器等,由于電視接收機的聲音等亦可導致背景雜音的種類時時刻刻發(fā)生著變化。因此,在這種環(huán)境下的使用者的語音就被附加上各種各樣的雜音,從而,應被辨識的語音數(shù)據(jù)的音響特性也時時刻刻地發(fā)生著變化。還有,即便是同一環(huán)境中的相同使用者,由于健康狀態(tài)、衰老情況等變化,使用者的音質(zhì)也會發(fā)生改變,所以應辨識語音數(shù)據(jù)的音響特性也在發(fā)生著變化。還有,由于安裝在語音辨識部分上的話筒的種類的不同,應辨識語音數(shù)據(jù)的音響特性也發(fā)生變化。
為了使不同音響特性的語音數(shù)據(jù)的辨識率接近于100%,開發(fā)了各種各樣的自適應化技術(shù)。
例如,做為最大似然線性回歸算法(Maximum Likelyhood LinearRegressionMLLR)的自適應化方法,C.J.Leggetter and P.C.Woodland,“Maximum likelihood linear regression for speaker adaptationof continuous density hidden Markov models”,Computer Speech andLanguage,1995,Vol.9,No.2,pp.171-186等被提案。做為最大似然線性回歸算法是,利用大量的使用者語音數(shù)據(jù),進行自適應系數(shù)的推定,再根據(jù)這些自適應系數(shù)通過變形音響模型來進行自適應。
還有,做為講話者組合的自適應化方法,加藤恒夫,黑巖真吾,清水徹,樋口宜男,“使用了多數(shù)講話者的電話語音數(shù)據(jù)庫的講話者組合”,信學技報,SP2000-10,pp.1-8,2000等被提案。還有,做為使用充分的統(tǒng)計量和講話者間的語音差異的自適應化方法,芳澤伸一,馬場朗,松浪加奈子,米良佑一郎,山田實一,鹿野清宏,“利用充分的統(tǒng)計量和講話者間的語音差異的語音模型的無教師學習”,信學技報,SP2000-89,pp.83-88,2000等被提案。據(jù)講話者組合的方法,使用充分的統(tǒng)計量和講話者間的語音差異的方法,基本上,事先將在各種各樣的利用環(huán)境中各種各樣講話者的大量發(fā)音數(shù)據(jù)儲存起來,再利用這些大量的數(shù)據(jù)事先構(gòu)筑成音響模型備用。如此,在自適應時,利用音響模型進行自適應。做為制作音響模型的發(fā)音數(shù)據(jù),因為利用儲存在數(shù)據(jù)庫的近似于使用者的音響特性的發(fā)音數(shù)據(jù),使用者不再需要進行大量的發(fā)音(準備),這樣就可以減輕使用者的負擔。還有,因為事先構(gòu)筑了音響模型,在自適應處理時不再需要為構(gòu)筑音響模型的處理時間,這樣,可以在短時間內(nèi)進行自適應。
還有,將應合講話者語音的聲譜沿著周波數(shù)軸方向伸縮的手法(VocalTract Normalization)等被提案。例如,Li lee and Richard C.Rose,“Speaker Normalization using efficient frequency warping procedures”,ICASSP-96,IEEE International Conference on Acoustics,Speech and Signal Processing,pp.171-186等被提案。在特開2000-276188號公報的圖1中,展示了利用聲譜變換進行講話者自適應的語音辨識部分。在這個語音辨識部分中,安裝著儲存了進行語音辨識的講話者自適應化系數(shù)的,附加/消除可能的自適應化系數(shù)儲存部分,據(jù)那些自適應化系數(shù)進行自適應。

發(fā)明內(nèi)容
發(fā)明所要解決的課題是在做為最大似然線性回歸算法中,因為利用了大量的使用者語音數(shù)據(jù)進行自適應,所以,使用者為了自適應的需要,就必須大量朗讀文章。為此,使用者的負擔很大。
據(jù)講話者組合的方法,用充分的統(tǒng)計量和講話者間的語音差異的自適應方法,為了對應各種各樣的音響特性所要對應的語音數(shù)據(jù),就必須在語音辨識部分中儲存大量的音響模型。為此,語音辨識部分中必須擁有龐大的儲存用容量,而對于移動電話、個人數(shù)碼助理(Personal Digital AssistantPDA)等僅僅只有有限的儲存用容量的終端器來講,則難以實現(xiàn)。
沿周波數(shù)軸方向伸縮應合講話者聲譜的手法,在特開2000-276188號公報的圖1中所揭示的技術(shù)中,進行了講話者特性的自適應,但是,對于雜音、講話者的音質(zhì)變化等的各種各樣的音響特性的變化用聲譜變換來進行自適應則是困難的。還有,在特開2000-276188號公報所揭示的技術(shù)中,為了自適應大量的各種各樣的雜音、各種各樣的使用者的音質(zhì)等的音響特性,就有必要準備儲存了各自的自適應系數(shù)的巨大數(shù)量的,且可能附加/消除的自適應化系數(shù)的儲存部分。還有,使用者還必須將所選擇的判斷雜音的種類、現(xiàn)在的音質(zhì)的上述自適應化系數(shù)儲存部分安裝于語音辨識部分。
本發(fā)明的目的在于提供一種可以減小必要的儲存用容量的終端器。
從這個發(fā)明的一個側(cè)面來講,終端器是包括送信部分、收信部分、第1儲存部分和語音辨識部分。送信部分,把使用者所發(fā)出的語音和環(huán)境雜音發(fā)送給服務器。收信部分,接收來自服務器的自適應于上述使用者語音和環(huán)境雜音的音響模型。第1儲存部分,儲存由收信部分接收的音響模型。語音辨識部分利用儲存于第1儲存部分的音響模型進行語音辨識。
上述的終端器,因為從服務器取得自適應于使用者的發(fā)音和環(huán)境雜音的音響模型并將其儲存于第1儲存部分中,所以沒有必要事先在第1儲存部分中儲存對應于可能遇到的(實際上大多數(shù)是遭遇不上的)所有的情況的音響模型。因此,可能減小必要的儲存用容量。
最好的是,上述收信部分還從服務器接收上述使用者將來有可能利用的音響模型。
最好的是,上述終端器中還包括有判斷部分。判斷部分,是將附加了上述環(huán)境雜音的上述使用者語音與既存于第1儲存部分中的音響模型的相似程度和所定的閾值進行比較。上述送信部分,在上述相似程度小于所定閾值時,向服務器發(fā)送上述使用者語音及環(huán)境雜音。
上述終端器,因為在上述相似程度大于所定閾值時,利用既存于第1儲存部分音響模型進行語音辨識,所以,可減少向服務器的信息發(fā)送/及從服務器的信息接收過程。
最好的是,上述判斷部分,在上述相似程度小于閾值時,敦促上述使用者判斷是否取得音響模型。上述送信部分,當上述使用者的判斷為取得音響模型時,向服務器發(fā)送上述使用者語音及上述環(huán)境雜音。
上述終端器,因為只限于使用者的判斷為取得音響模型時才向服務器發(fā)送這個使用者語音及環(huán)境雜音,所以,可減少向服務器的信息發(fā)送/及從服務器的信息接收。
最好的是,上述終端器還包括第2儲存部分。第2儲存部分,儲存使用者所發(fā)出的語音。上述送信部分,在取得了環(huán)境雜音后,向服務器發(fā)送這個環(huán)境雜音和既存于第2儲存部分的使用者語音。
上述終端器,可以在第2儲存部分中儲存使用者在周圍雜音極其少的時候的發(fā)音。如此,服務器,或者是終端器,可以制作/利用更高精度的自適應模型。還有,上述終端器,可以在第2儲存部分中儲存在寂靜環(huán)境中的復數(shù)個人的發(fā)音。因此,即便是對于復數(shù)個人利用的終端器,也可以利用高精度的音響模型。還有,因為使用者語音一旦被儲存,在制作自適應模型時的發(fā)音工作就不再有必要,所以,使用者的負擔不大。
從本發(fā)明的另一個側(cè)面來講,終端器是包括送信部分、收信部分、第1儲存部分、制作部分和語音辨識部分。送信部分,把使用者所發(fā)出的語音和環(huán)境雜音發(fā)送給服務器。收信部分,接收來自服務器的自適應于上述使用者語音和環(huán)境雜音的音響模型。第1儲存部分,儲存由收信部分接收的制作用數(shù)據(jù)。制作部分,利用既存于第1儲存部分中的制作用數(shù)據(jù),制作自適應于上述使用者的發(fā)音及上述環(huán)境雜音的音響模型。語音辨識部分,利用由制作部分所制作的音響模型進行語音辨識。
上述的終端器,因為能從服務器取得自適應于使用者所發(fā)出的語音和環(huán)境雜音的音響模型儲存于第1儲存部分中,也就沒有必要事先在第1儲存部分中儲存對應于可能遇到的所有情況的音響模型。因此,可能減小必要的儲存用容量。
最好的是,上述收信部分,還能從服務器中接收上述使用者將來有可能利用的制作用數(shù)據(jù)。
最好的是,上述終端器,敦促使用者從各種各樣環(huán)境中選擇所希望的環(huán)境,在所選擇的環(huán)境中重現(xiàn)具有特征的語音。
從本發(fā)明的另一個側(cè)面來講,服務器包括儲存部分、收信部分、選擇部分和送信部分。儲存部分,儲存復數(shù)個音響模型。復數(shù)個音響模型中的每一個,都是自適應于所對應的講話者及環(huán)境的模型。收信部分,接收來自終端器的使用者的發(fā)音和環(huán)境雜音。選擇部分,從儲存部分選擇由收信部分所接收的,自適應于使用者語音和環(huán)境雜音的音響模型。送信部分,向上述終端器發(fā)送由選擇部分所選擇的音響模型。
上述的服務器,因為設置了儲存復數(shù)個音響模型的儲存部分,并從儲存部分選擇自適應于終端器使用者語音和環(huán)境雜音的音響模型發(fā)送給終端器,所以可以減小終端器所必須的儲存用容量。
還有,因為可以在儲存部分中儲存用近似于使用者發(fā)音數(shù)據(jù)的音響特性的大量數(shù)據(jù)所制作的音響模型,使用者就不必為制作音響模型而進行大量的發(fā)音工作,所以使用者的負擔小。
還有,因為可以在儲存部分中儲存事先制作的近似于使用者發(fā)音數(shù)據(jù)的音響特性的大量數(shù)據(jù)所制作的音響模型,就可以不再需要制作音響模型的時間,而縮短自適應處理的時間,所以在短時間內(nèi)終端器就可獲得自適應模型。
最好的是,上述選擇部分,從儲存部分中選擇上述終端器的使用者將來有可能使用的音響模型。
從本發(fā)明的另一個側(cè)面來講,服務器包括儲存部分、收信部分、制作部分和送信部分。儲存部分,儲存復數(shù)個音響模型。復數(shù)個音響模型中的每一個,是自適應于所對應的講話者及環(huán)境的模型。收信部分,接收來自終端器的使用者發(fā)音和環(huán)境雜音。制作部分,基于接收信號部分接收的使用者語音、環(huán)境雜音和儲存于儲存部分中的復數(shù)個音響模型,制作自適應于上述使用者發(fā)音及環(huán)境雜音的音響模型。送信部分,向上述終端器發(fā)送由制作部分所制作的音響模型。
上述服務器中,因為設置了儲存復數(shù)個音響模型的儲存部分,向終端器發(fā)送所制作的自適應于終端器使用者語音和環(huán)境雜音的音響模型,所以就可能減小終端器所必須的儲存用容量。
最好的是,上述制作部分,制作上述終端器使用者將來可能利用的音響模型。
從本發(fā)明另一個側(cè)面來講,服務器包括儲存部分、收信部分、選擇部分和送信部分。儲存部分儲存復數(shù)個音響模型。復數(shù)個音響模型的每一個,是自適應所對應的講話者及環(huán)境的模型。收信部分,接收從終端器發(fā)送的,使用者的發(fā)音和環(huán)境雜音。選擇部分,是從儲存部分中選擇由收信部分所接收的,為制作自適應于使用者語音和環(huán)境雜音的音響模型的制作用數(shù)據(jù)。制作用數(shù)據(jù),至少包含2個音響模型。送信部分,向上述終端器發(fā)送由選擇部分所選擇的制作用數(shù)據(jù)。
上述的服務器,因為從儲存部分選擇制作自適應于終端器使用者語音和環(huán)境雜音的音響模型的制作用數(shù)據(jù)發(fā)送給終端器,所以可以減小終端器所必備的儲存用容量。
最好的是,上述選擇部分,從儲存部分中選擇上述終端器使用者將來可能利用的制作用數(shù)據(jù)。
最好的是,在上述儲存部分中儲存的復數(shù)個音響模型中的每一個,亦自適應所對應的講話者的語調(diào)。
上述的服務器,因為在儲存部分中儲存了自適應講話者語調(diào)的音響模型,所以,終端器使用者可以獲得更高的辨識率。
最好的是,上述儲存部分所儲存的復數(shù)個音響模型的每一個,在制作這個音響模型時為得到講話者的發(fā)音數(shù)據(jù),亦自適應輸入方法的特性。
上述服務器,因為在儲存部分中儲存了自適應于輸入方法特性的音響模型,終端器的使用者可以獲得更高的辨識率。
從本發(fā)明的另一個側(cè)面來講,語音辨識包括步驟(a)~(c)。步驟(a),準備復數(shù)個音響模型。復數(shù)個音響模型中的每一個,為自適應于講話者、環(huán)境及語調(diào)的模型。步驟(b),基于使用者的發(fā)音、環(huán)境雜音及上述復數(shù)個音響模型,獲得自適應于上述使用者語音和環(huán)境雜音的音響模型。步驟(c),利用上述獲得的音響模型進行語音辨識。
上述的語音辨識方法,因為準備了自適應于講話者語調(diào)的音響模型,使用者可以獲得更高的辨識率。
最好的是,上述復數(shù)個音響模型中的每一個,在制作這個音響模型的時候,為了得到講話者的語音,也自適應于輸入方法的特性。
上述的語音辨識方法,因為準備了自適應于輸入方法特性的音響模型,使用者可以獲得更高的辨識率。


圖1是表示本發(fā)明實施例1的語音辨識系統(tǒng)的全體構(gòu)成方框圖。
圖2是表示圖1所示語音辨識系統(tǒng)的操作流程的流程圖。
圖3是表示圖1所示儲存于服務器的數(shù)據(jù)儲存部分的音響模型一例的圖。
圖4是表示本發(fā)明實施例2的語音辨識系統(tǒng)的全體構(gòu)成方框圖。
圖5是表示圖4所示語音辨識系統(tǒng)的操作流程的流程圖。
圖6是表示儲存于個人數(shù)碼助理的儲存部分中的音響模型及高斯混合模型一例的圖。
圖7是表示本發(fā)明實施例3的語音辨識系統(tǒng)的全體構(gòu)成方框圖。
圖8是表示圖7所示語音辨識系統(tǒng)的操作流程的流程圖。
圖9是表示利用環(huán)境雜音自適應算法的制作自適應模型的制作處理流程圖。
圖10是表示本發(fā)明實施例4的語音辨識系統(tǒng)的全體構(gòu)成方框圖。
圖11是表示圖10所示語音辨識系統(tǒng)的操作流程的流程圖。
圖12是表示觸屏所顯示畫面的一例的圖。
圖13是表示本發(fā)明實施例5的語音辨識系統(tǒng)的個人數(shù)碼助理的構(gòu)成方框圖。
圖14是為說明本發(fā)明實施例5的語音辨識系統(tǒng)的操作的流程圖。
圖15是為說明本發(fā)明實施例6的語音辨識系統(tǒng)的移動電話構(gòu)成的方框圖。
圖16是為說明本發(fā)明實施例6的語音辨識系統(tǒng)的操作的流程圖。
圖17是表示本發(fā)明實施例7的語音辨識系統(tǒng)的全體構(gòu)成方框圖。
圖18是為說明圖17所示的語音辨識系統(tǒng)的操作的流程圖。
具體實施形態(tài)以下,參照圖紙來詳細說明本發(fā)明的實施形態(tài)。尚且,圖中相同或相當部分標注以同樣的符號,不再重復說明。
(實施例1)<語音辨識部分的構(gòu)成>
第1實施例的語音辨識部分的全體構(gòu)成由圖1來表示。該語音辨識部分包括個人數(shù)碼助理11和服務器12。個人數(shù)碼助理11及數(shù)據(jù)保管計算機12是介于信息通道131,進行相互之間的數(shù)據(jù)發(fā)送和接收的。
個人數(shù)碼助理11包括話筒111,送信部分112,收信部分113,儲存部分114及語音辨識部分115。話筒111,是輸入個人數(shù)碼助理11的使用者所發(fā)出的語音,個人數(shù)碼助理11周圍的雜音(環(huán)境雜音)等的數(shù)據(jù)輸入方法。送信部分112,把話筒111輸入的數(shù)據(jù)發(fā)送給數(shù)據(jù)保管計算機12。收信部分113,接收從數(shù)據(jù)保管計算機12傳來的自適應模型。由收信部分113接收的自適應模型儲存于儲存部分114。語音辨識部分115利用儲存于儲存部分114的自適應模型進行語音辨識。
數(shù)據(jù)保管計算機12包括收信部分121,送信部分122,自適應模型選擇部分123和數(shù)據(jù)儲存部分124。數(shù)據(jù)儲存部分124中,儲存附加了對應的復數(shù)個音響模型和復數(shù)個選擇模型。復數(shù)個選擇模型,是為選擇所對應的音響模型的模型。收信部分121接收來自個人數(shù)碼助理11的數(shù)據(jù)。自適應模型選擇部分123,從儲存在數(shù)據(jù)儲存部分124中的復數(shù)個音響模型中選擇自適應化了的個人數(shù)碼助理11的利用環(huán)境及/或者利用狀態(tài)的音響模型。在這兒所說的利用環(huán)境,是表示利用個人數(shù)碼助理11的場所的周圍雜音等。還有,利用狀況,是表示由于個人數(shù)碼助理11的語音辨識部分115的語音辨識處理而操作的應用程序的用途等。送信部分122向個人數(shù)碼助理11發(fā)送由自適應模型選擇部分123所選擇的自適應模型。
<語音辨識部分的操作>
接下來,參照圖2說明有關如上所構(gòu)成的語音辨識系統(tǒng)的操作。在這里,以使用者在展覽會場中利用個人數(shù)碼助理11的情況為例加以說明。
(ST10101步驟)使用者依靠裝在個人數(shù)碼助理11上的話筒111輸入“取得音響模型”,“希望自適應”,“語音辨識”等語音數(shù)據(jù)。與此同時,在使用者語音的數(shù)據(jù)上附加了展覽會場中的噪音。
(ST10102步驟)個人數(shù)碼助理11敦促使用者判斷是否取得音響模型。當使用者的判斷為取得音響模型時,在ST10101步驟得到的附加了雜音的語音數(shù)據(jù)由個人數(shù)碼助理11的送信部分112發(fā)送給服務器12。然后進入ST10103步驟。另一方面,當使用者的判斷為不取得音響模型時,就不向服務器12發(fā)送信息而進入ST10105步驟。
(ST10103步驟)在服務器12的數(shù)據(jù)儲存部分124中事先儲蓄了復數(shù)個音響模型。所謂復數(shù)個音響模型,就是自適應在制作各種各樣的雜音環(huán)境中的各種各樣講話者的、講話者各種各樣語調(diào)的、音響模型時,為得到講話者發(fā)出的語音所使用的話筒的特性。在數(shù)據(jù)儲存部分124中事先儲蓄音響模型的一個例子用圖3表示。在此所儲蓄的是,汽車內(nèi)、家庭內(nèi)、展覽會場內(nèi)等的雜音環(huán)境中的A、B、C、Z等講話者的通常語音、嘶啞語音、鼻音等的語調(diào)使用話筒A、話筒B、話筒C、話筒D等用所發(fā)出的語音數(shù)據(jù)制作的復數(shù)個音響模型(夾雜著雜音的模型)。復數(shù)個音響模型的每一個包含有復數(shù)個隱馬爾可夫模型(HMM)。各個音響模型所包含的音素音響模型的個數(shù)、種類,是根據(jù)語音辨識的精確度(依賴于上下文的聯(lián)貫性、不依賴于上下文的聯(lián)貫性等)、語言(日語、英語等)、應用程序等的不同而不同。還有,為了選擇做為自適應模型的復數(shù)個音響模型內(nèi)的自適應于個人數(shù)碼助理11利用環(huán)境及/或者利用狀況的音響模型,在數(shù)據(jù)儲存部分124中事先儲蓄了高斯混合模型(Gaussian Mixture Model)。高斯混合模型是用制作音響模型時所利用的語音數(shù)據(jù),在不區(qū)別音素的情況下制作的。高斯混合模型與音響模型成對,它是表現(xiàn)所對應的音響模型的特征的單純模型。
服務器12的收信部分121,接收來自個人數(shù)碼助理11使用者的夾雜著雜音的數(shù)據(jù)。自適應模型選擇部分123,將由收信部分121所接收的使用者夾雜著雜音的數(shù)據(jù),輸入給既存于數(shù)據(jù)儲存部分124中的,附隨于各音響模型的高斯混合模型中。這樣,自適應模型選擇部分123,選擇附隨于具有最大似然值(Maximum Likelyhood)的高斯混合模型的音響模型做為自適應模型。被選擇的音響模型是最適合周圍雜音和使用者的模型。
(ST10104步驟)服務器12的送信部分122,向個人數(shù)碼助理11發(fā)送由自適應模型選擇部分123所選擇的自適應模型133。
個人數(shù)碼助理11的收信部分113,接收來自服務器12的自適應模型133。由收信部分113接收的自適應模型133儲存于儲存部分114中。這時,以前被儲存于儲存部分114的音響模型(自適應模型)被新下載了的自適應模型所置換。
(ST10105步驟)語音辨識部分115,用儲存于儲存部分114的自適應模型進行語音辨識。在ST10102步驟,使用者的判斷為取得音響模型的情況下,在ST10103步驟用自服務器12下載的自適應模型進行語音辨識。在ST10102步驟,使用者的判斷為不取得音響模型的情況下,不進行音響模型的下載,用既存于儲存部分114的自適應模型進行語音辨識。
<效果>
據(jù)實施例1的語音辨識系統(tǒng),在服務器12中進行自適應,在個人數(shù)碼助理11中進行辨識。因為服務器12的記憶容量很大,可以利用復雜模型自適應。因此,可以提高辨識率。還有,即便是發(fā)生服務器12死機、串線等現(xiàn)象,在個人數(shù)碼助理11中仍然可以使用辨識機能。
還有,因為沒有必要在個人數(shù)碼助理11的儲存部分114中儲存對應于所有可能遭遇的情況(實際上很多情況不會遭遇)的自適應模型,只需要從服務器12獲取自適應于所遭遇了的狀況的自適應模型,儲存到個人數(shù)碼助理11的儲存部分114即可,所以,就可以削減個人數(shù)碼助理11的儲存部分114的容量。
還有,個人數(shù)碼助理11的使用者,因為由自適應了個人數(shù)碼助理11周圍的雜音、使用者的講演特性、使用者的語調(diào)、話筒的特性的自適應模型能夠進行語音辨識,所以可以得到高辨識率。
還有,因為在服務器12的數(shù)據(jù)儲存部分124中事先保存了和使用者的發(fā)音數(shù)據(jù)的音響特性相近的大量數(shù)據(jù)所制作的音響模型,所以使用者就不必為制作音響模型而再進行大量的發(fā)音(工作)。
還有,因為在服務器12的數(shù)據(jù)儲存部分124中事先保存了和使用者的發(fā)音數(shù)據(jù)音響特性相近的大量數(shù)據(jù)制作的音響模型,所以就不再需要為制作音響模型的處理時間。
還有,因為在個人數(shù)碼助理11的儲存部分114中保存了以前所利用過的自適應模型,所以可以再利用自適應模型。
<變形例子>
尚且,在向個人數(shù)碼助理11的儲存部分114中儲存從服務器12所下載的自適應模型時,既存于儲存部分114的自適應模型被新下載的自適應模型所置換(ST10103步驟)。變換一下做法,在既存于儲存部分114中的自適應模型的基礎上,把新下載的自適應模型追加到儲存部分114中的做法亦可。這種情況,在ST10105步驟中的語音辨識處理進行如下所述的過程。在ST10102步驟中,使用者的判斷為取得音響模型的情況時,在ST10103步驟中用自服務器12下載了的自適應模型進行語音辨識。在ST10102步驟中,使用者的判斷為不取得音響模型的情況時,不進行音響模型的下載,從ST0101步驟中積存于儲存部分114的自適應模型中選擇已被輸入的接近于語音數(shù)據(jù)的自適應模型,用所選擇的自適應模型進行語音辨識。
還有,服務器12的自適應模型選擇部分123,亦可對應于利用狀況選擇音響模型。例如,在利用有關安全措施的應用程序(據(jù)語音辨識處理機密情報的應用程序、據(jù)語音辨識進行汽車駕駛的應用程序等)的情況中,選擇更高精度的自適應化音響模型亦可。這種情況的個人數(shù)碼助理11既可以將起動著的應用程序信息傳送給服務器12的自適應模型選擇部分123用以通知利用狀況(語音辨識的重要程度)亦可,或是讓使用者輸入重要程度,并將該信息(利用狀況)傳送給服務器12的自適應模型選擇部分123亦可。
還有,音素的音響模型不只限于隱馬爾可夫模型。
還有,也可以把“取得音響模型”等的試發(fā)音數(shù)據(jù)從個人數(shù)碼助理11傳送給服務器12亦可。做為這種情況的一個例子,因為使用由在試發(fā)音中的只包含音韻的語音數(shù)據(jù)所制作并特化了的高斯混合模型,可以由只用上述音韻所構(gòu)成的發(fā)聲數(shù)據(jù)來選擇自適應模型,所以就可以高精度地選擇自適應模型。在從所有的音韻發(fā)聲對每個講演者制作了高斯混合模型的情況下,用高斯混合模型所可以表現(xiàn)的講話者特性就有可能變得含糊不清。
還有,亦可將變換了的使用者的發(fā)音數(shù)據(jù)的倒譜系數(shù)(Cepstrum系數(shù))等的特征量從個人數(shù)碼助理11傳送給服務器12。
還有,在服務器12的數(shù)據(jù)保存部分124中不儲存高斯混合模型,在自適應模型選擇部分123中取代高斯混合模型而使用音響模型,亦可選擇音響模型的似然值為最大值的音響模型做為自適應模型。
還有,在個人數(shù)碼助理11中,使用和輸入個人數(shù)碼助理一側(cè)的信息132的話筒相同的話筒進行語音辨識亦可。這種情況下,用考慮了話筒特性的自適應模型可以進行語音辨識。
還有,亦可以個人數(shù)碼助理11做為電視接收機、個人電腦、以及汽車電子自動導向系統(tǒng)等的固定終端。
還有、信息通路131亦可借用電話線、因特網(wǎng)線、有線電視線等的有線、通訊網(wǎng)、BS/CS數(shù)碼播放或地面波數(shù)碼播放等的播放網(wǎng)絡。
還有,亦可用服務器12做為電視接收機或者是機頂盒(Set-Top Box),個人數(shù)碼助理11(終端)做為電視接收機的遙控器,使服務器和終端共存于接近的空間。
(實施例2)<語音辨識系統(tǒng)的構(gòu)成>
第2實施例的語音辨識系統(tǒng)的全體構(gòu)成由圖4來表示。該語音辨識系統(tǒng)包括個人數(shù)碼助理11和服務器42。個人數(shù)碼助理11及數(shù)據(jù)保管計算機42是介于信息通道131進行相互間的數(shù)據(jù)的存入讀取。
數(shù)據(jù)保管計算機42包括收信部分121,送信部分122,自適應模型選擇部分123,數(shù)據(jù)儲存部分124和時間表數(shù)據(jù)庫421。在時間表數(shù)據(jù)庫421中,保存著個人數(shù)碼助理11的使用者的日程安排(目的地、時日等)。
<語音辨識系統(tǒng)的操作>
接下來,參照圖5說明有關如上所構(gòu)成的語音辨識系統(tǒng)的操作。在這里,以使用者X在展覽會場中利用個人數(shù)碼助理11的情況為例加以說明。
使用者X,與第1實施例所說明的一樣的做法,向個人數(shù)碼助理11的儲存部分114下載自適應于展覽會場的噪音和使用者X的正常發(fā)音的音響模型及該模型的高斯混合模型(ST10101~ST10104)。
(ST10111步驟)個人數(shù)碼助理11敦促使用者X判斷是否取得將來有可能使用的音響模型。若是使用者X的判斷為取得音響模型時,從個人數(shù)碼助理11的送信部分112向服務器42發(fā)出要求信號,進入ST10112步驟。另一方面,若是使用者X的判斷為不取得音響模型的話,就不發(fā)送要求信號而進入ST10114步驟。在此,設定使用者X的判斷為取得將來所要利用自適應模型。
(ST10112步驟)來自個人數(shù)碼助理11的要求信號介于服務器42的接受信息部分121傳給自適應模型選擇部分123。接受了要求信號的自適應模型選擇部分123預測使用者有可能遭遇的情況,并從數(shù)據(jù)儲存部分124選擇自適應這種情況的音響模型。具體的選擇過程如下。上述的ST10101~ST10104步驟中,用自適應于展覽會場的噪音和使用者的正常語音的音響模型做為音響模型下載到個人數(shù)碼助理11的儲存部分114。據(jù)此,自適應模型選擇部分123選擇做為自適應于使用者X今后有可能遭遇的情況的音響模型的“自適應于展覽會場噪音和使用者X的感冒時的語音的音響模型”、“自適應于展覽會場噪音和使用者X的快速講話時的語音的音響模型”、“自適應于展覽會場噪音和使用者X的竊竊私語時的語音的音響模型”、“自適應于近似于展覽會場噪音的會場噪音和使用者X的正常語音的音響模型”。還有,做為別的選擇方法,參照收存在時間表數(shù)據(jù)庫421中的使用者X的時間表,自適應模型選擇部分123選擇音響模型。例如,做為使用者今后的時間表,在時間表數(shù)據(jù)庫421中收存了“工程現(xiàn)場的臨時工”、“居酒屋(小酒店)的宴會”、“歐洲旅行(英語及法語圈)”。這種情況下,做為自適應于使用者今后有可能遭遇的情況的音響模型,自適應選擇部分123選擇“自適應于工程現(xiàn)場的噪音和使用者X的正常語音的音響模型”、“自適應于居酒屋的雜音和使用者X的正常語音的音響模型”、“自適應于展覽會場噪音和使用者X的英語正常語音的音響模型”、“自適應于展覽會場噪音和使用者X的法語正常語音的音響模型”。
(ST10113步驟)
如上所述做法所選擇的音響模型(自適應模型)和與該模型對應的高斯混合模型從服務器42的送信部分122發(fā)送給個人數(shù)碼助理11。個人數(shù)碼助理11的收信部分113接收由服務器42所發(fā)送的自適應模型和高斯混合模型。由收信部分113接收的自適應模型和高斯混合模型被儲存在儲存部分114中。在此,在既存于儲存部分114的音響模型及高斯混合模型的基礎上追加新被下載的音響模型及高斯混合模型。如此做法,儲存在儲存部分114上的音響模型及高斯混合模型的一例如圖6所示。
(ST10114步驟)語音辨識部分115,用既存于儲存部分114的自適應模型進行語音辨識。在ST10102步驟,使用者的判斷為取得音響模型的情況時,ST10103步驟中用自服務器42下載的自適應模型進行語音辨識。在ST10102步驟,使用者的判斷為不取得音響模型的情況時,用既存于儲存部分114的自適應模型進行語音辨識。
接下來是使用者X在做臨時工的工程現(xiàn)場利用語音辨識的情況。使用者X在工程現(xiàn)場利用個人數(shù)碼助理11的話筒111進行輸入使用者語音數(shù)據(jù)(ST10101)。使用者X不要求下載自適應模型(ST10102)。語音辨識部分115將被輸入的語音數(shù)據(jù)輸入到儲存于儲存部分114的各個高斯混合模型中,選擇對應于該語音數(shù)據(jù)的似然值最大的高斯混合模型的音響模型(ST10111)。語音辨識部分115用所選擇的自適應模型進行語音辨識(ST10114)。
接下來說明和使用者X一起做臨時工的朋友使用者Y在工程現(xiàn)場利用個人數(shù)碼助理11的情況。使用者Y在工程現(xiàn)場利用個人數(shù)碼助理11的話筒111輸入使用者語音數(shù)據(jù)(ST10101)。使用者Y要求下載自適應模型(ST10102)。自適應于工程現(xiàn)場的噪音和使用者Y的正常語音的音響模型(自適應模型)及該模型的高斯混合模型被下載到個人數(shù)碼助理11的儲存部分 114上(ST10103~ST10104)。還有,使用者Y不要求將來必要的音響模型(ST10111)。使用者Y利用下載到儲存部分114的自適應模型由語音辨識部分115進行辨識(ST10104)。
<效果>
按照實施例2的語音系統(tǒng)的做法,在實施例1的結(jié)果的基礎上還能得到以下結(jié)果。
因為事先在個人數(shù)碼助理11的儲存部分114上儲存了所預測的有可能遭遇的情況的自適應模型,所以個人數(shù)碼助理11的使用者不用通過與服務器42交換信息而可以利用自適應模型。還有,因為可以在個人數(shù)碼助理11的儲存部分114上儲存復數(shù)個使用者的自適應模型,所以,個人數(shù)碼助理11的復數(shù)使用者不用通過與服務器42的交換信息而可以利用自適應模型。
<變形例子>
尚且,在此例子中是遵從個人數(shù)碼助理11的使用者的判斷取得將來有可能使用的自適應模型,但是也可以設定為由服務器42的自適應模型選擇部分123自動取得自適應模型。例如,參照儲存于時間表數(shù)據(jù)庫421的使用者的時間表(日程),進行如下的取得自適應模型。以個人數(shù)碼助理11的使用者X的時間表為‘從10點開始工程現(xiàn)場的臨時工’的情況為例。在這種情況下,在比所第定的時刻10點鐘早的時刻,如在9點50分時,自適應模型選擇部分123從數(shù)據(jù)儲存部分124選擇“自適應于工程現(xiàn)場的噪音和使用者X的正常語音的音響模型”。所選擇的模型由送信部分122發(fā)送給個人數(shù)碼助理11,儲存在儲存部分114中。由此,在開始臨時工的10點鐘就可以在個人數(shù)碼助理11上進行利用“自適應于工程現(xiàn)場噪音和使用者X的正常語音的音響模型”的語音辨識。還有,在個人數(shù)碼助理11上裝載了全球定位系統(tǒng)(Global Positioning System·GPS)功能的情況下,移動了個人數(shù)碼助理11的使用者X在一定程度上接近臨時工工程現(xiàn)場時,亦可由自適應模型選擇部分123從數(shù)據(jù)儲存部分124選擇“自適應于工程現(xiàn)場噪音和使用者X的正常語音的音響模型”。
還有,在此是舉了在服務器42內(nèi)設置了時間表數(shù)據(jù)庫的例子,亦可設置在個人數(shù)碼助理11中。
還有,對應于由自適應模型選擇部分123所選擇的自適應模型的高斯混合模型不下載到個人數(shù)碼助理11,亦可利用從個人數(shù)碼助理11的儲存部分114選擇自適應模型時的自適應模型。
還有,在ST10101步驟進行語音輸入時,輸入使用者的姓名,把下載的自適應模型和使用者的姓名之間附加上相對應的關系數(shù)據(jù)備用。這樣,在ST10114步驟中的選擇自適應模型時,亦可采用輸入使用者姓名的方法進行選擇。
還有,亦可用服務器42做為電視接收機或是機頂盒,個人數(shù)碼助理11(終端)做為電視接收機的遙控器,個人數(shù)碼助理11(終端)做為電視接收機的遙控器,使服務器和終端共存于接近的空間。
(實施例3)<語音辨識系統(tǒng)的構(gòu)成>
第3實施例的語音辨識系統(tǒng)的全體構(gòu)成由圖7來表示。這個語音辨識系統(tǒng)包括移動電話21和服務器22。移動電話21及數(shù)據(jù)保管計算機22是介于信息通道231,進行相互間的數(shù)據(jù)讀出存入的。
移動電話21包括數(shù)據(jù)輸入部分211、送信部分212、收信部分213、儲存部分214和語音辨識部分215。數(shù)據(jù)輸入部分211是為輸入移動電話21的使用者的語音,或是移動電話21周圍的雜音等信息的數(shù)據(jù)輸入部分。數(shù)據(jù)輸入部分211包括語音發(fā)音按鈕和話筒。語音發(fā)聲按鈕是為了區(qū)別輸入使用者的語音和環(huán)境雜音的按鈕。話筒,輸入移動電話21的使用者的語音及移動電話21周圍的雜音等。發(fā)送信息部分212是向服務器22發(fā)送由數(shù)據(jù)輸入部分211所輸入的數(shù)據(jù)。收信部分213接收來自服務器22的自適應模型。由收信部分213所接收的自適應模型儲存于儲存部分214。語音辨識部分215利用既存于儲存部分214的自適應模型進行語音辨識。
服務器22包括收信部分221、送信部分222、自適應模型制作部分223、數(shù)據(jù)儲存部分224和時間表數(shù)據(jù)庫421。在數(shù)據(jù)儲存部分224中儲存著自適應模型制作用數(shù)據(jù)。自適應模型制作用數(shù)據(jù)中包含著復數(shù)個音響模型及它們所對應的高斯混合模型和復數(shù)個講話者的語音數(shù)據(jù)。收信部分221接收來自移動電話21的數(shù)據(jù)。自適應模型制作部分223,基于收信部分221所接受的數(shù)據(jù)及數(shù)據(jù)儲存部分224所儲存的數(shù)據(jù),制作自適應模型。發(fā)送信息部分222,向移動電話21發(fā)送由自適應模型制作部分223所制作的自適應模型。
<語音辨識系統(tǒng)的操作>
接下來,參照圖8說明有關如上所構(gòu)成的語音辨識系統(tǒng)的操作。在這里,以使用者在電車內(nèi)利用移動電話21的情況為例加以說明。
(ST10201步驟)移動電話21的使用者,利用裝在移動電話21上的話筒及發(fā)音按鈕,區(qū)別使用者發(fā)音時的數(shù)據(jù)和沒有發(fā)音時周圍的雜音數(shù)據(jù)并進行輸入。使用者按著語音發(fā)發(fā)音按鈕并進行發(fā)音,使用者語音就輸入到話筒中。還有,若不按語音發(fā)音按鈕,周圍的雜音就通過話筒被輸入。做為使用者的發(fā)音數(shù)據(jù),輸入當電車停車時的使用者語音,而做為周圍的雜音,則在電車運行時輸入噪音和周圍人的喧囂聲。
(ST10202步驟)移動電話21,敦促使用者判斷是否取得音響模型。若是使用者的判斷為取得音響模型時,在ST10201步驟中,從數(shù)據(jù)輸入部分211被輸入的數(shù)據(jù)由移動電話21的發(fā)送信息部分212發(fā)送給服務器22。然后進入ST10203步驟。另一方面,若是使用者的判斷為不取得音響模型時,就不發(fā)送信息而進入ST10214步驟。
(ST10203步驟)服務器22的收信部分221,接收來自移動電話21的使用者語音和周圍的雜音。
自適應模型制作部分223,基于既存于數(shù)據(jù)儲存部分224的音響模型中至少兩個音響模型和由收信部分221所接收的數(shù)據(jù),制作自適應于移動電話21一側(cè)的利用環(huán)境的音響模型。
自適應模型制作部分223,利用環(huán)境雜音自適應算法(山田實一、馬場朗、芳澤伸一、米良佑一郎、李晃伸、猿渡洋、鹿野清宏、“環(huán)境雜音算法大詞匯連續(xù)語音辨識的評價”,信息處理學會研究報告書,2000-SLP-35,pp.31-36,2001)制作自適應模型。接下來,參照圖9說明有關利用環(huán)境雜音自適應算法制作自適應模型的過程。在服務器22的數(shù)據(jù)儲存部分224中,事先儲存了復數(shù)個音響模型和復數(shù)個講話者的發(fā)音數(shù)據(jù)。環(huán)境雜音自適應算法,由發(fā)聲數(shù)據(jù),利用充分的統(tǒng)計量和講話者間的語音差異進行講話者自適應?;诔浞值慕y(tǒng)計量和講話者間的語音差異的適應化方法,從數(shù)據(jù)儲存部分224選擇(ST73)在音響上接近于短時間使用者的發(fā)音數(shù)據(jù)的講話者的音響模型,利用所選擇的音響模型,用充分的統(tǒng)計量和講話者間的語音差異的適應化方法進行講話者自適應(ST71)。由于可以用由移動電話21所接受的不含雜音的發(fā)音數(shù)據(jù)進行講話者自適應,所以可以進行高精度的講話者自適應。在那以后,從數(shù)據(jù)儲存部分224選出(ST74)在音響上接近于短時間使用者的發(fā)音數(shù)據(jù)的講話者的音響模型,生成在所選擇的發(fā)音數(shù)據(jù)上附加了由移動電話21所接受的周圍雜音數(shù)據(jù)的附加雜音數(shù)據(jù)。而且,由附加雜音數(shù)據(jù)用做為最大似然值線性回歸算法的方法進行雜音自適應(ST72)。如此做法,自適應模型就被制作了。
(ST10204步驟)由自適應模型制作部分223所制作的自適應模型233,通過發(fā)送信息部分222發(fā)送給移動電話21的收信部分213。移動電話21的收信部分213所接收的自適應模型233,被儲存于儲存部分214。在這里,在儲存部分214中的既存音響模型及高斯混合模型的基礎上,追加了新下載的音響模型及高斯混合模型。
(ST10211步驟)移動電話21,敦促使用者判斷是否取得將來有可能使用的音響模型。若是使用者的判斷為取得音響模型時,從移動電話21的發(fā)送信息部分212向服務器22發(fā)出要求信號,進入ST10212步驟。另一方面,若是使用者的判斷為不取得音響模型時,就不發(fā)送要求信號而進入ST10214步驟。
(ST10212步驟)接收了來自移動電話21的要求信號的自適應模型制作部分223,制作使用者預測的可能遭遇的狀況,并自適應該狀況的音響模型。應制作的音響模型的選擇,如圖5所示的ST10112步驟所說明的同樣的方式進行。模型的制作,如上述ST10203步驟所說明的同樣的方式進行。
(ST10213步驟)如上所述做法所制作的音響模型(自適應模型)和與該音響模型相對應的高斯混合模型從服務器22的發(fā)送信息部分222發(fā)送給移動電話21。移動電話21的收信部分213,接收由服務器22所發(fā)送的自適應模型及高斯混合模型。由收信部分213所接收的自適應模型及高斯混合模型,被儲存在儲存部分214中。在此,在儲存部分214中的既存音響模型及高斯混合模型的基礎上追加新被下載的音響模型及高斯混合模型。
(ST10214步驟)語音辨識部分215,如圖5所示的ST10114所說明的同樣做法,用既存于儲存部分214的自適應模型進行語音辨識。
<效果>
按照如上說明的實施例3的做法,因為沒有必要在移動電話21的儲存部分214中儲存所有的對應于有可能遭遇的情況(實際遭遇不到的情況為多)的自適應模型,只需要從服務器22獲得并儲存自適應于所遭遇到的情況的自適應模型即可,所以,可以消減移動電話21的儲存部分214的容量。
還有,移動電話21的使用者,因為能夠做到根據(jù)自適應于移動電話周圍的雜音、使用者的講話者性質(zhì)、使用者語音性質(zhì)等的自適應模型進行語音辨識,所以能獲得高辨識率。
還有,在服務器22中,因為可以在考慮移動電話21一側(cè)的情況下制作自適應模型,所以,還可以向移動電話21發(fā)送更自適應于移動電話21的利用狀況的自適應模型。
<變形例子>
尚且,做為區(qū)別使用者的語音數(shù)據(jù)和使用者未發(fā)聲時的周圍的雜音數(shù)據(jù)的方法,利用語音辨識模型和雜音辨識模型自動進行亦可。
還有,音響模型不受隱馬爾可夫模型的限制。
還有,自適應模型制作部分223中,在改良用充分的統(tǒng)計量和講話者間的語音差異方法(芳澤伸一,馬場朗,松浪加奈子,米良佑一郎,山田實一,鹿野清宏,“利用充分的統(tǒng)計量和講話者間的語音差異的音韻模型的無教師學習”,信學技報,SP2000-89,pp.83-88,2000)的基礎上,代替有關復數(shù)講話者音響模型的,進行由關于復數(shù)講話者和雜音的音響模型和附屬于這些音響模型的高斯混合模型進行自適應化的方法亦可。
還有,在自適應模型制作部分223中,用最大后驗概率算法(Maximum a posterioriMAP)推定,做為最大似然線性回歸算法的改良法等的利用音響模型的其他自適應化手法亦可。
還有,做為移動電話21一側(cè)的信息232,“取得音響模型”等的試發(fā)音數(shù)據(jù)發(fā)送給服務器22以便利用亦可。
還有,做為移動電話21一側(cè)的信息232,變換了發(fā)音數(shù)據(jù)的倒譜系數(shù)等的特征量發(fā)送給服務器22亦可。
還有,取代做為終端器的移動電話21,使用電視接收機,個人電腦,汽車電子自動導向系統(tǒng)等的放置型終端等亦可。
還有,信息通路,借用電話線、因特網(wǎng)線、有線電視線等的線路,通訊網(wǎng)、BS/CS數(shù)碼播放、地面波數(shù)碼播放等的播放網(wǎng)絡亦可。
還有,將服務器22做為電視接收機或是機頂盒,移動電話21(終端)做為電視接收機的遙控器,使服務器和終端共存于接近的空間亦可。
(實施例4)<語音辨識系統(tǒng)的構(gòu)成>
第4實施例的語音辨識系統(tǒng)的全體構(gòu)成由圖10來表示。該語音辨識系統(tǒng)包括移動終端31和服務器32。移動終端31及數(shù)據(jù)保管計算機32是介于信息通道331進行相互間的數(shù)據(jù)的讀取存入的。
移動終端31包括數(shù)據(jù)輸入部分311、送信部分312、收信部分313、儲存部分314、自適應模型制作部分316和語音辨識部分315。數(shù)據(jù)輸入部分311是輸入移動終端31的使用者的語音,移動終端31周圍的雜音等信息的。數(shù)據(jù)輸入部分311包括話筒和瀏覽器(Web Browser)。話筒,輸入使用者的語音及周圍的雜音。瀏覽器,輸入有關使用者語音和環(huán)境雜音的信息。發(fā)送信息部分312,是向服務器32發(fā)送由數(shù)據(jù)輸入部分311所輸入的數(shù)據(jù)。收信部分313,接收來自服務器32的自適應模型制作用數(shù)據(jù)。由收信部分313所接收的自適應模型被儲存于儲存部分314。自適應模型制作部分316利用既存于儲存部分314自適應模型制作用數(shù)據(jù)制作自適應模型。語音辨識部分315利用由自適應模型制作部分316所制作的自適應模型進行語音辨識。還有,在儲存部分314中記憶了各種狀態(tài)(環(huán)境)下的特征語音的數(shù)據(jù)。如,記憶了超級市場、展覽會場中的有特征性的聲音,汽車、地鐵等的有特征性的聲音數(shù)據(jù)。這些數(shù)據(jù),是在移動終端3 1進行聲音辨識處理前,事先從服務器32下載到移動終端31的儲存部分314中的。
服務器32包括收信部分321、發(fā)送信息部分322、選擇部分323、數(shù)據(jù)儲存部分324和時間表數(shù)據(jù)庫421。在數(shù)據(jù)儲存部分324中,儲存著復數(shù)個音響模型和為選擇該模型用的選擇模型(高斯混合模型)。收信部分321,接收來自移動終端31的數(shù)據(jù)。選擇部分323從數(shù)據(jù)儲存部分324選擇為自適應移動終端31的利用環(huán)境等所必要的自適應模型制作用數(shù)據(jù)。發(fā)送信息部分322,向移動終端31發(fā)送由選擇部分323所選擇的自適應模型制作用數(shù)據(jù)。
<語音辨識系統(tǒng)的操作>
接下來,參照圖11說明有關如上所構(gòu)成的語音辨識系統(tǒng)的操作。在這里,以使用者在超級市場內(nèi)利用移動終端31的情況為例加以說明。
(ST10401步驟)移動終端31的使用者,通過數(shù)據(jù)輸入部分311的話筒輸入“今天的飯菜做什么呢?”等語音數(shù)據(jù)。數(shù)據(jù)輸入部分311的瀏覽器,如圖12所示,在移動終端3 1的觸屏上表示敦促輸入周圍的狀態(tài)(環(huán)境)、語調(diào)等信息畫面。移動終端31的使用者,通過用軟筆等選定觸屏上的“超級市場”的項目和“有點感冒”的項目,輸入周圍的狀態(tài)(環(huán)境)、語調(diào)等信息。此時移動終端31的使用者選定“聽這個語音”,在選定狀態(tài)(環(huán)境)下的特征性聲音數(shù)據(jù)從儲存部分314被讀出后被重現(xiàn)。這種情況下,超級市場的特征音響被重現(xiàn)。
(ST10402步驟)移動終端31,敦促使用者判斷是否取得制作用數(shù)據(jù)。若是使用者的判斷為取得制作用數(shù)據(jù)時,在ST10401步驟中的被輸入的信息332由移動終端31的發(fā)送信息部分312發(fā)送給服務器32。然后進入ST10403步驟。另一方面,若是使用者的判斷為不取得制作用數(shù)據(jù)時,就不向服務器32發(fā)送信息而進入ST10408步驟。
(ST10403步驟)服務器32的數(shù)據(jù)儲存部分324中,如圖3所示,事先儲存了附加了對應關系的復數(shù)個音響模型和復數(shù)個高斯混合模型。
服務器32的收信部分321,接收來自移動終端31的移動終端一側(cè)的信息332。選擇部分323,基于來自移動終端一側(cè)的信息332,從儲存在數(shù)據(jù)儲存部分324的音響模型中選擇至少兩個音響模型和與該音響模型相對應的高斯混合模型。用由選擇部分323所選擇的音響模型及高斯混合模型做為“自適應模型制作用數(shù)據(jù)”。在此,選擇部分323,用與實施例1中自適應模型選擇部分123基本相同的方法,基于短時間使用者的發(fā)音選擇自適應模型制作用數(shù)據(jù)。但是,利用由移動終端一側(cè)的信息332內(nèi)的由觸屏輸入的信息,在所選擇的音響模型上附加上制約。尚且,在此所說的制約為過濾的意思。如,由觸屏所輸入的信息為“有點感冒”和“超級市場”時,用附隨于有關“有點感冒”和“超級市場”的音響模型的高斯混合模型進行選擇。
(ST10404步驟)發(fā)送信息部分322,將由選擇部分323所選擇的自適應模型制作用數(shù)據(jù)333發(fā)送給移動終端31。
由移動終端31的收信部分313所接收的自適應模型制作用數(shù)據(jù)333,儲存于儲存部分314。在這里,在儲存部分314中既存的自適應模型制作用數(shù)據(jù)基礎上追加新下載的自適應模型制作用數(shù)據(jù)。
(ST10405步驟)移動終端31,敦促使用者判斷是否取得將來有可能使用的,為制作自適應模型的自適應模型制作用數(shù)據(jù)。若是使用者的判斷為取得自適應模型制作用數(shù)據(jù)時,從移動終端31的發(fā)送信息部分312向服務器32發(fā)出要求信號,進入ST10406步驟。另一方面,若是使用者的判斷為不取得自適應模型制作用數(shù)據(jù)的話,就不發(fā)送要求信號而進入ST10408步驟。
(ST10406步驟)接收了來自移動終端31的要求信號的選擇部分323,預測使用者有可能遭遇的狀況,并從數(shù)據(jù)儲存部分324選擇為制作自適應該狀況的音響模型的自適應模型制作用數(shù)據(jù)(至少2種音響模型和與其對應的高斯混合模型)。應制作的音響模型的選擇,如圖5所示的ST10112步驟所說明的同樣的方法進行。自適應模型制作用數(shù)據(jù)的選擇,如上述ST10403步驟所說明的同樣的方法進行。
(ST10407步驟)如上所述做法所選擇的自適應模型制作用數(shù)據(jù)從服務器32的發(fā)送信息部分322被送給移動終端31。由移動終端31的收信部分313所接收自適應模型制作用數(shù)據(jù)儲存于儲存部分314。在此,在儲存部分314中的既存自適應模型制作用數(shù)據(jù)的基礎上追加新被下載的自適應模型制作用數(shù)據(jù)。
(ST10408步驟)自適應模型制作部分316,用迄今為止儲存于儲存部分314的自適應模型制作用數(shù)據(jù)制作自適應模型。在此,基于用充分的統(tǒng)計量和講話者間的語音差異方法(芳澤伸一,馬場朗,松浪加奈子,米良佑一郎,山田實一,鹿野清宏,“利用充分的統(tǒng)計量和講話者間的語音差異的音韻模型的無教師學習”,信學技報,SP20 00-89,pp.83-88,2000)制作自適應模型。自適應模型制作部分316,制作與服務器32的選擇部分323一樣,基于由數(shù)據(jù)輸入部分311的話筒輸入的語音數(shù)據(jù),從儲存部分314選擇復數(shù)音響模型。所選擇的音響模型,為最自適應于現(xiàn)在利用環(huán)境中的周圍雜音和講話者語音的復數(shù)模型。用所選擇的復數(shù)個隱馬爾可夫模型的平均、分散、轉(zhuǎn)變概率、EM計算的統(tǒng)計計算制作自適應模型。自適應模型的隱馬爾可夫模型的平均、分散、轉(zhuǎn)變概率、EM計算是所選擇的音響模型全體隱馬爾可夫模型的各種狀態(tài)下各種混合分布的平均、分散和所選擇的音響模型全體的轉(zhuǎn)變概率。具體的計算方法由以下的數(shù)式1~3表示。自適應模型的隱馬爾可夫模型的各種狀態(tài)的正規(guī)分布的平均、分散各自為μiadp(i=1、2、…Nmix),Viadp(i=1、2、…Nmix)。在此的Nmix為混合分布數(shù)。還有,aadp[i][j](i=1、2、…Nstate)為狀態(tài)變化概率。在此Nstate為狀態(tài)數(shù),aadp[i][j]表示狀態(tài)i變?yōu)闋顟B(tài)j的轉(zhuǎn)變概率。數(shù)式1μiadp=Σj=1NselCmixjμijΣj=1NselCmixj(i=1,2,...Nmix)]]>數(shù)式2viadp=Σj=1NselCmixj(vij+(μij)2)Σj=1NselCmixj-(μiadp)2(i=1,2,...Nmix)]]>數(shù)式3aadp[i][j]=Σk=1NselCstatek[i][j]Σj=1NstateΣk=1NselCstatek[i][j](i,j=1,2,...Nstate)]]>在此,Nsel為所選擇的音響模型的數(shù)字,μij(i=1、2、…Nmix,j=1、2、…Nsel),Vij(i=1、2、…Nmix,j=1、2、…Nsel)為各個音響模型的平均、分散。還有,Cjmix(j=1、2、…Nsel)、Ckstate[i][j](k=1、2、…Nsel,i、j=1、2、…Nstate)為各個正規(guī)分布中的E-M計算(度數(shù)),是關于狀態(tài)轉(zhuǎn)變的E-M計算。
(ST10409步驟)語音辨識部分315,用自適應模型制作部分316所制作的自適應模型進行語音辨識。
<效果>
按照如上說明的實施例4的做法,因為不必在移動終端31的儲存部分314中儲存對應于所有的有可能遭遇的情況(實際遭遇不到的情況為多)的自適應模型制作用數(shù)據(jù),只需要從服務器32獲取為制作自適應于所遭遇到情況的自適應模型制作用數(shù)據(jù)并儲存起來即可,所以,可以減少移動終端31的儲存部分314的容量。
還有,移動終端31的使用者,因為能夠做到根據(jù)自適應于移動電話周圍的雜音、使用者的講話者性質(zhì)、使用者語音性質(zhì)等的自適應模型辨識語音,所以可以獲得高辨識率。
還有,一旦將所遭遇的狀況的自適應模型制作用數(shù)據(jù)儲存于移動終端31的儲存部分314,在遭遇到相同情況時,不必和服務器32交換信息即可制作自適應模型。
<變形例子>
尚且,在圖1及圖4所示個人數(shù)碼助理11及圖7所示移動電話21的內(nèi)部設置自適應模型制作部分316,用儲存于儲存部分114、214、314的音響模型中至少兩個音響模型來制作自適應模型亦可。
還有,在儲存部分314中儲存復數(shù)使用者的制作用數(shù)據(jù)來制作自適應模型亦可。這種情況下,輸入使用者語音/指定使用者的名字來選擇特定的使用者的制作用數(shù)據(jù)制作自適應模型。
還有,音響模型不受隱馬爾可夫模型的限制。
還有,做為移動終端31的信息332,變換了發(fā)音數(shù)據(jù)的倒譜系數(shù)等的特征量發(fā)送給服務器32亦可。
還有,使用自適應模型制作及語音辨識的自適應化方法,用音響模型的其他自適應化方法亦可。
還有,輸入自適應模型制作及語音辨識所用語音數(shù)據(jù)的話筒,使用與數(shù)據(jù)輸入部分311的話筒不相同的話筒亦可。
還有,取代移動終端31的,使用電視接收機,個人電腦,汽車電子自動導向系統(tǒng)等的放置型終端等亦可。
還有信息通路,借用電話線、因特網(wǎng)線、有線電視線等的線路,通訊網(wǎng)、BS/CS數(shù)碼播放網(wǎng)、地面波數(shù)碼播放網(wǎng)等的播放網(wǎng)亦可。
還有,將服務器32做為電視接收機或是機頂盒,移動終端31做為電視接收機的遙控器,使服務器和終端共存于接近的空間亦可。
(實施例5)<語音辨識系統(tǒng)的構(gòu)成>
第5實施例的語音辨識系統(tǒng),取代圖1所示的個人數(shù)碼助理11而使用圖13的個人數(shù)碼助理61,其余的構(gòu)成與圖1所示的音響辨識系統(tǒng)相同。
圖13所示的個人數(shù)碼助理61,是在圖1所示的個人數(shù)碼助理11的基礎上還加上初期設定部分601和判斷部分602。還有,在儲存部分114中,儲存了n組(n為正整數(shù))通過收信部分113已接受了的音響模型及該音響模型的高斯混合模型。初期設定部分601,將閾值Th提供給判斷部分602。閾值Th的值,既可以由初期設定部分601自動設定,也可以根據(jù)使用者的指示由初期設定部分601設定。判斷部分602,將通過話筒111得到的,附加了環(huán)境雜音的使用者的語音變換為所定的特征量,該特征量與既存于儲存部分114的各個音響模型的高斯混合模型的似然值與來自初期設定部分601的閾值Th進行比較。既存于儲存部分114中的所有音響模型的似然值均小于閾值Th時,判斷部分602將控制信號傳送給發(fā)送信息部分112?;貞袛嗖糠?02的控制信號的發(fā)送信息部分112,將由話筒111得到的使用者語音及環(huán)境雜音送給服務器12。另一方面,儲存部分114中既存的任何一個音響模型的似然值高于閾值Th時,判斷部分602不向發(fā)送信息部分112發(fā)送控制信號。還有,發(fā)送信息部分112不向服務器12發(fā)送信號。
<語音辨識系統(tǒng)的操作>
接下來,參照圖14說明有關如上所構(gòu)成的語音辨識系統(tǒng)的操作。
如上所述,個人數(shù)碼助理61的儲存部分114中,儲存了n組(n為正整數(shù))通過收信部分113已接受了的音響模型及該音響模型的高斯混合模型。
然后,由個人數(shù)碼助理61的初期設定部分601決定的閾值Th發(fā)送給判斷部分602(ST701)。閾值Th由對應于利用語音辨識的應用決定。例如,初期設定部分601,在利用關于安全措施的應用(由語音辨識處理信息的應用、由語音辨識進行的汽車駕駛的應用等)的情況下,將閾值Th設定為大值,而這些以外的應用的情況下,將閾值Th設定為小值。初期設定部分601,在選定了所要利用的應用時,將對應于該應用的閾值提供給判斷部分602。
接下來,附加了環(huán)境雜音的使用者語音通過個人數(shù)碼助理61的話筒111被輸入(ST702)。
接下來,由話筒111得到的附加了環(huán)境雜音的使用者語音通過個人數(shù)碼助理61的判斷部分602被變換為所定的特征量。然后,在既存于儲存部分114的各個音響模型,即高斯混合模型(GMM1~GMMn)中被輸入這些特征量,各自的似然值被計算(ST703)。
接下來,由判斷部分602判斷在ST703步驟被計算的最大值是否比閾值Th小(ST704)。
既存于儲存部分114的所有的高斯混合模型(GMM1~GMMn)的似然值比閾值Th小的時候(yes),進入ST705步驟。而且,判斷部分602將控制信號發(fā)送給發(fā)送信號部分112。對應于來自判斷部分602的控制信號,發(fā)送信息部分112將通過話筒111得到的使用者語音及環(huán)境雜音發(fā)送給服務器12(ST705)。服務器12采用與實施例1相同的做法,將最適合該使用者語音及環(huán)境雜音的音響模型發(fā)送給個人數(shù)碼助理61。這個音響模型由個人數(shù)碼助理61的收信部分所接受,被儲存于儲存部分114。而且,語音辨識部分115,用儲存于儲存部分114中的這個音響模型進行語音辨識。
另一方面,在ST703步驟所計算的似然值的任何一個大于閾值Th時(no)。判斷部分602不向發(fā)送信息部分112發(fā)送控制信號。因此,發(fā)送信息部分112不進行向服務器12發(fā)送信號。而且,語音辨識部分115用ST704步驟所計算的最高似然值的高斯混合模型的音響模型進行語音辨識。
<效果>
如上所述的實施例5的語音辨識系統(tǒng),只限于附加了環(huán)境雜音的使用者語音和事先儲存于個人數(shù)碼助理61的儲存部分114的音響模型的似然值比所定的閾值小的時候,使用者語音和環(huán)境雜音從個人數(shù)碼助理61傳給服務器12。由此,可減少個人數(shù)碼助理61和服務器12之間的數(shù)據(jù)的讀出存入。
<變形例子>
尚且,對于圖7所示移動電話21及圖10所示移動終端31,同樣設置初期設定部分601及判斷部分602亦可。
還有,將服務器12做為電視接收機或是機頂盒,個人數(shù)碼助理61做為電視接收機的遙控器,使服務器和終端共存于接近的空間亦可。
(實施例6)<語音辨識系統(tǒng)的構(gòu)成>
第6實施例的語音辨識系統(tǒng),取代圖1所示的個人數(shù)碼助理11而使用圖15的個人數(shù)碼助理81,其余的構(gòu)成與圖1所示語音辨識系統(tǒng)相同。
圖15所示的個人數(shù)碼助理81,在圖1所示的個人數(shù)碼助理11的基礎上還有判斷部分801。還有,在儲存部分114中,儲存了n組(n為正整數(shù))通過收信部分113已接受了的音響模型及該音響模型的高斯混合模型。判斷部分801,將通過話筒111得到的,附加了環(huán)境雜音的使用者語音變換為所定的特征量,該特征量與既存于儲存部分114的各個音響模型的高斯混合模型的似然值進行比較。儲存部分114中既存的所有的音響模型的似然值均小于閾值時,判斷部分801敦促使用者判斷是否下載音響模型。當使用者判斷為下載音響模型時,發(fā)送信息部分112將由話筒得到的使用者語音及環(huán)境雜音送給服務器12。當使用者判斷為不下載音響模型時,發(fā)送信息部分112不向服務器12發(fā)送控制信號。還有,既存于儲存部分114的任何一個音響模型的似然值高于閾值時,發(fā)送信息部分112不向服務器12發(fā)送信號。
<語音辨識系統(tǒng)的操作>
接下來,參照圖16說明有關如上所構(gòu)成的語音辨識系統(tǒng)的操作。
如上所述,個人數(shù)碼助理81的儲存部分114中,儲存了n組(n為正整數(shù))通過收信部分113已接受了的音響模型及該音響模型的高斯混合模型。
然后,附加了環(huán)境雜音的使用者語音通過個人數(shù)碼助理81的話筒111被輸入(ST901)。
接下來,由話筒111得到的附加了環(huán)境雜音的使用者語音通過個人數(shù)碼助理81的判斷部分801被變換為所定的特征量。然后,在既存于儲存部分114的各個音響模型高斯混合模型(GMM1~GMMn)中輸入這些特征量,各自的似然值被計算(ST902)。
接下來,由判斷部分801判斷在ST902步驟被計算的最大值是否比閾值小(ST903)。
既存于儲存部分114的所有的高斯混合模型(GMM1~GMMn)的似然值比閾值小時(yes),進入ST904步驟。而且,判斷部分801敦促使用者判斷是否下載音響模型(ST904)。當使用者的判斷為下載音響模型時(yes),發(fā)送信息部分112將由話筒得到的使用者語音及環(huán)境雜音送給服務器12(ST905)。服務器12采用與實施例1相同的做法,將最適合該使用者語音及環(huán)境雜音的音響模型發(fā)送給個人數(shù)碼助理81。這個音響模型由個人數(shù)碼助理81的收信部分所接受,被儲存于儲存部分114。而且,語音辨識部分115用儲存于儲存部分114中的這個音響模型進行語音辨識。
另一方面,在ST902步驟所計算的似然值的任何一個大于閾值Th(ST903步驟中為no),及,使用者判斷為不應下載音響模型時(ST904步驟中為no)時,發(fā)送信息部分112不進行向服務器12發(fā)送信息。而且,語音辨識部分115用ST902步驟所計算的最高似然值的高斯混合模型的音響模型進行語音辨識。
<效果>
如上所述的實施例6的語音辨識系統(tǒng),只限于附加了環(huán)境雜音的使用者語音和事先儲存于個人數(shù)碼助理81的儲存部分114的音響模型的似然值比所定的閾值小時,且使用者的判斷為應下載音響模型時,使用者語音和環(huán)境雜音從個人數(shù)碼助理81傳給服務器12。由此,可減少個人數(shù)碼助理81和服務器12之間的數(shù)據(jù)的讀出存入。
<變形例子>
尚且,對于圖7所示移動電話21及圖10所示移動終端31,同樣設置判斷部分801亦可。
還有,將服務器12做為電視接收機或是機頂盒,個人數(shù)碼助理81(終端)做為電視接收機的遙控器,使服務器和終端共存于接近的空間亦可。
(實施例7)<語音辨識系統(tǒng)的構(gòu)成>
第7實施例的語音辨識系統(tǒng)的構(gòu)成由圖17表示。該語音辨識系統(tǒng)包括取代圖7所示的移動電話21為移動電話101。其余的構(gòu)成與圖7所示語音辨識系統(tǒng)相同。
圖17所示的移動電話101,在圖7所示的移動電話21的基礎上還包括儲存部分1001。儲存部分1001儲存通過數(shù)據(jù)輸入部分211輸入的使用者語音及環(huán)境雜音。發(fā)送信息部分212將既存于儲存部分1001的使用者語音及環(huán)境雜音發(fā)送給服務器22。
<語音辨識系統(tǒng)的操作>
接下來,參照圖18說明有關如上所構(gòu)成的語音辨識系統(tǒng)的操作。
在安靜的環(huán)境中利用使用者語音制作音響模型的情況與利用重疊了雜音的語音制作音響模型的情況相比,可以制作高精度的音響模型。拿著移動電話101步行時,在很多時間段中存在汽車的噪音、周圍人的話音、辦公室內(nèi)的風扇聲等的雜音。但是,在公園等休息的時候,也有在一定的時間段內(nèi)極少有噪音的情況。在這種時機下,移動電話101的使用者一邊按著發(fā)音按鈕一邊講話。如此,安靜環(huán)境中的使用者語音被儲存于儲存部分1001中(ST1101)。
使用者若要利用語音辨識機能時,移動電話101敦促使用者判斷是否下載音響模型(ST1102)。使用者的判斷為應下載音響模型時(yes),使用者不按語音發(fā)音按鈕通過話筒輸入環(huán)境雜音。通過話筒輸入的環(huán)境雜音就被儲存于儲存部分1001(ST1103)。
接下來,發(fā)送信息部分212將既存于儲存部分1001的使用者語音和環(huán)境雜音發(fā)送給服務器22(ST1104)。服務器22,與實施例3同樣的做法,將最適合該使用者語音及環(huán)境雜音的音響模型發(fā)送給移動電話101。該音響模型通過由移動電話101的收信部分213接收,儲存于儲存部分214中。而且,語音辨識部分215用儲存于儲存部分214的音響模型進行語音辨識。
<效果>
實施例7的語音辨識系統(tǒng)中,因為在移動電話101內(nèi)設置了儲存部分1001,在較少雜音的環(huán)境中可以進行由使用者語音的講話者的自適應。因此可以進行高精度的講話者自適應。
還有,因為使用者語音只要被保存一次,在制作自適應模型時使用者就不需要再進行發(fā)音工作,使用者的負擔很少。
<變形例子>
尚且,在安靜的環(huán)境下儲存部分1001儲存復數(shù)個人的語音亦可。這種情況下,復數(shù)個人的各自在安靜環(huán)境中的語音和姓名附加上關系,儲存于儲存部分1001。在獲得自適應模型時,指定姓名決定使用者語音數(shù)據(jù)制作音響模型。由此,即便是對于如電視接收機的遙控器等復數(shù)個人利用的器械,也可以利用高精度的自適應模型。
還有,在此的ST1104步驟中,盡管只是將既存于儲存部分1001的使用者語音和環(huán)境雜音發(fā)送給服務器22,但是,將既存于儲存部分1001的附加了環(huán)境雜音的安靜環(huán)境中的使用者語音數(shù)據(jù)發(fā)送給服務器22亦可。
還有,將服務器22做為電視接收機或是機頂盒,移動電話101(終端)做為電視接收機的遙控器,使服務器和終端共存于接近的空間亦可。
權(quán)利要求
1.一種終端器,它包括送信部分、收信部分、第1儲存部分和語音辨識部分,其中上述送信部分將使用者所發(fā)的語音和環(huán)境雜音發(fā)送給服務器;上述收信部分接收來自上述服務器的,適應于上述使用者語音和環(huán)境雜音的音響模型;上述第1儲存部分儲存由上述收信部分所接受的音響模型;上述語音辨識部分利用上述第1儲存部分所儲存的音響模型進行語音辨識。
2.根據(jù)上述權(quán)利要求第1項所述終端器,其中還從上述服務器接受上述使用者將來可能利用的音響模型。
3.根據(jù)上述權(quán)利要求第1項所述終端器,還包括比較上述附加了環(huán)境雜音的使用者發(fā)音與既存于上述第1儲存部分的音響模型的相似程度和所定閾值的判斷部分,其中上述送信部分,在上述相似程度比上述閾值小時,將上述使用者語音及上述環(huán)境雜音發(fā)送給服務器。
4.根據(jù)上述權(quán)利要求第3項所述終端器,其中上述判斷部分敦促上述使用者判斷,當上述相似程度比上述閾值小的時候,是否取得音響模型;上述送信部分,在上述使用者的判斷為取得音響模型時,向服務器發(fā)送上述使用者語音及上述環(huán)境雜音。
5.根據(jù)上述權(quán)利要求第1項所述終端器,它還包括儲存上述使用者所發(fā)語音的第2儲存部分,其中上述送信部分,當取得了環(huán)境雜音后,向服務器發(fā)送該當環(huán)境雜音和既存于上述第2儲存部分的使用者語音。
6.一種終端器,它包括送信部分、收信部分、第1儲存部分、制作部分和語音辨識部分,其中上述送信部分將使用者所發(fā)語音和環(huán)境雜音發(fā)送給服務器;上述收信部分接受來自上述服務器的,為制作適應于上述使用者的語音和環(huán)境雜音的音響模型的制作用數(shù)據(jù);上述第1儲存部分儲存由上述收信部分所接受的制作用數(shù)據(jù);上述制作部分利用既存于上述第1儲存部分的制作用數(shù)據(jù)制作適應于上述使用者語音和環(huán)境雜音的音響模型;上述語音辨識部分用由上述制作部分所制作的音響模型進行語音辨識。
7.根據(jù)上述權(quán)利要求第6項所述終端器,其中上述收信部分還從上述服務器中接受上述使用者將來可能使用的制作用數(shù)據(jù)。
8.根據(jù)上述權(quán)利要求第1和第6項所述終端器,其中上述終端器敦促使用者從各種各樣環(huán)境狀況中選擇所希望的環(huán)境狀況,在所選擇的環(huán)境狀況中重放特征語音。
9.一種服務器,它包括儲存部分,收信部分,選擇部分和送信部分,其中上述儲存部分儲存自適應于各自對應的講話者及環(huán)境的復數(shù)個音響模型;上述收信部分接受由終端器發(fā)送的,使用者的發(fā)音及環(huán)境雜音;上述選擇部分從上述儲存部分選擇由上述收信部分所接受的自適應于上述使用者語音和環(huán)境雜音的音響模型;上述送信部分向上述終端器發(fā)送由上述選擇部分所選擇的音響模型。
10.根據(jù)上述權(quán)利要求第9項所述服務器,其中上述選擇部分從上述儲存部分選擇由上述選擇部分所選擇的音響模型。
11.一種服務器,它包括儲存部分,收信部分,制作部分和送信部分,其中上述儲存部分儲存自適應于各自對應的講話者及環(huán)境的復數(shù)個音響模型;上述收信部分接受由終端器發(fā)送的,使用者的發(fā)音及環(huán)境雜音;上述制作部分基于由上述收信部分所接收的上述使用者語音及環(huán)境雜音和既存于上述儲存部分的復數(shù)個音響模型,制作適應于上述使用者語音及環(huán)境雜音的音響模型;上述送信部分向上述終端器發(fā)送由上述制作部分所制作的音響模型。
12.根據(jù)上述權(quán)利要求第11項所述服務器,其中上述制作部分制作上述終端器使用者將來可能利用的音響模型。
13.一種服務器,它包括儲存部分,收信部分,選擇部分和送信部分,其中上述儲存部分儲存自適應于各自對應的講話者及環(huán)境的復數(shù)個音響模型;上述收信部分接受由終端器發(fā)送的,使用者的發(fā)音及環(huán)境雜音;上述選擇部分從上述儲存部分選擇,為制作由上述收信部分所接受的自適應于上述使用者語音和環(huán)境雜音的音響模型的制作用數(shù)據(jù);上述送信部分向上述終端器發(fā)送由上述選擇部分所選擇的制作用數(shù)據(jù)。
14.根據(jù)上述權(quán)利要求第13項所述服務器,其中上述選擇部分從上述儲存部分中選擇上述終端器使用者將來可能利用的制作用數(shù)據(jù)。
15.根據(jù)上述權(quán)利要求第9、11、13項中的任何一項所述的服務器,其中既存于上述儲存部分的復數(shù)個音響模型中的每一個,也自適應于所對應的講話者的語調(diào)。
16.根據(jù)上述權(quán)利要求第9、11、13項中的任何一項所述的服務器,其中既存于上述儲存部分的復數(shù)個音響模型中的每一個,亦自適應于為了在該模型在制作時得到講話者的語音。
17.一種語音辨識方法,其中準備了對應自適應于各自講話者,環(huán)境及語調(diào)的復數(shù)個音響模型;基于使用者所發(fā)的語音及環(huán)境雜音和上述復數(shù)個音響模型,獲得適應于上述使用者語音和上述環(huán)境雜音的音響模型;用上述所獲得的音響模型進行語音辨識。
18.根據(jù)上述權(quán)利要求第17項所述的語音辨識方法,其中上述復數(shù)個音響模型的每一個,亦自適應于為了在該模型在制作時得到講話者的語音。
全文摘要
本發(fā)明公開了一種有關終端器、服務器以及語音辨識的方法。其目的在于提供一種可減小必要儲存容量的終端器。由個人數(shù)碼助理的話筒所輸入的,附加了雜音的使用者語音數(shù)據(jù)從送信部分發(fā)送給服務器。服務器的數(shù)據(jù)儲存部分中事先儲存了復數(shù)個音響模型。服務器的自適應模型選擇部分,從既存于數(shù)據(jù)儲存部分的音響模型中選擇由收信部分所接受的最適合于附加了雜音數(shù)據(jù)的音響模型。所選擇的自適應模型由送信部分發(fā)送給個人數(shù)碼助理。個人數(shù)碼助理的接受信息部分從服務器接受自適應模型。所接收的自適應模型被儲存在儲存部分中。語音辨識部分用既存于儲存部分的自適應模型進行語音辨識。
文檔編號G10L15/30GK1409527SQ0213166
公開日2003年4月9日 申請日期2002年9月12日 優(yōu)先權(quán)日2001年9月13日
發(fā)明者芳澤伸一 申請人:松下電器產(chǎn)業(yè)株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1