亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

信息處理裝置、信息處理方法及程序的制作方法

文檔序號:2829531閱讀:187來源:國知局
專利名稱:信息處理裝置、信息處理方法及程序的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種信息處理裝置、信息處理方法及程序,尤其涉及一種信息處理裝置、信息處理方法及程序,其使得機器人或其他類似物能夠更恰當?shù)禺a(chǎn)生需要的信息以便主動改變該機器人的行為以使得該行為適應(yīng)外部施加給該機器人的刺激。
背景技術(shù)
對于期望通過聲音與人類用戶進行通信的機器人,需要有一個和用戶處理過的音素結(jié)構(gòu)類似的音素結(jié)構(gòu),因此該機器人可以識別由用戶發(fā)出的音素并且可以發(fā)出與用戶發(fā)出的那些音素類似的音素。也就是說,機器人需要能夠識別使用用戶講話的語言的話音和以此種語言發(fā)出話音(通過話音合成)。
在普通的話音識別/合成技術(shù)中,使用取決于用戶所使用的語言制定的音素或單詞的字典來識別或合成使用用戶所使用的語言的話音。
在人類社會中,使用不同的音素和語言取決于國家或區(qū)域。因此,在使用提前制定的字典執(zhí)行話音識別或話音合成的技術(shù)中,必須制定由國家或區(qū)域決定的不同的字典。
但是,字典的制定需要巨大的花費。因此,在通過聲音與人類用戶進行通信的機器人的技術(shù)中,近年來一直需要開發(fā)一種技術(shù)來通過諸如與用戶對話而無需使用字典的相互作用獲得與人類用戶的那些音位結(jié)構(gòu)類似的音位結(jié)構(gòu)。
例如,在題目為“A Constructive Model of Mother-Infant Interactiontowards Infant’s Vowel Articulation”的論文(Y.Yoshikawa,J.Koga,M.Asada,和K.Hosoda,Proc.of the 3rd International Workshop onEpigenetic Robotics,頁碼139-146,2003(這里,該論文被稱為非專利文件1))中,公開了具有發(fā)音器和聽覺器、并且通過經(jīng)由與戶主的交互作用獲取與人類社會中使用的音位結(jié)構(gòu)相同的音位結(jié)構(gòu)而能夠識別本身的機器人。
在非專利文件1中公開的機器人中,發(fā)音器隨機產(chǎn)生參數(shù)(發(fā)動命令),并根據(jù)所產(chǎn)生的參數(shù)發(fā)出聲音。
稱為戶主的用戶聽到由該機器人發(fā)出的聲音。如果戶主識別出聲音與人類社會中使用的音素中的一種相同,該戶主發(fā)出該音素以便該機器人得知該聲音與該音素相同。這種學習重復(fù)的進行從而該機器人獲得人類社會中使用的許多音素。
該機器人具有一個與聽覺器相關(guān)的自組織映射(以下稱為聽覺SOM(自組織映射))和一個與發(fā)音器相關(guān)的自組織映射(以下稱為發(fā)音SOM)。
每個自組織映射(SOM)具有多個節(jié)點,并且每個節(jié)點具有一個參數(shù)。當輸入數(shù)據(jù)(參數(shù))被提供給自組織映射時,從所有的節(jié)點中選出具有與該輸入數(shù)據(jù)最相似的參數(shù)的節(jié)點(以下,這樣選出的節(jié)點被稱為優(yōu)勝者),優(yōu)勝者的參數(shù)被修改以與輸入數(shù)據(jù)更加的相似。在自組織映射中,與接近于優(yōu)勝者節(jié)點的節(jié)點相關(guān)的參數(shù)也被稍微的朝該輸入數(shù)據(jù)方向修改。
因此,如果大量的輸入數(shù)據(jù)提供給自組織映射,則對自組織映射中的節(jié)點進行組織以便具有相似參數(shù)的節(jié)點相互之間靠近以及沒有相似參數(shù)的節(jié)點相互之間遠離。因此,對應(yīng)于輸入數(shù)據(jù)的模式的映射形成在自組織映射中。根據(jù)輸入數(shù)據(jù)排列節(jié)點以便其參數(shù)相互之間類似的節(jié)點相互之間靠近和根據(jù)輸入數(shù)據(jù)中包括的模式形成一幅映射被稱為自組織。
在非專利文件1中公開的技術(shù)中,機器人選擇發(fā)音SOM中的節(jié)點中的一個,隨機改變所選擇的節(jié)點的參數(shù),并根據(jù)結(jié)果的參數(shù)發(fā)出聲音。
戶主聽到由機器人發(fā)出的聲音。如果戶主識別出所發(fā)出的聲音與人類社會中使用的音素中的一種相同,該戶主發(fā)出該音素因此該機器人得知該聲音與該音素相同。如果,響應(yīng)于該機器人所發(fā)出的聲音,該戶主發(fā)出相同的聲音,那么該機器人接受由戶主發(fā)出的聲音作為輸入數(shù)據(jù)并且在聽覺SOM中為該輸入數(shù)據(jù)確定一個優(yōu)勝者節(jié)點。此外,修改聽覺SOM(與關(guān)心的節(jié)點和鄰近節(jié)點相關(guān)的參數(shù)),并且增加發(fā)音SOM中的關(guān)心節(jié)點和聽覺SOM中的優(yōu)勝者節(jié)點之間的連接強度。
通過重復(fù)進行上面描述的處理,發(fā)音SOM和聽覺SOM逐步建立起來,因此發(fā)音SOM的節(jié)點和聽覺SOM的節(jié)點之間產(chǎn)生了連接,該連接是按照用于戶主發(fā)出聲音的優(yōu)勝者節(jié)點響應(yīng)聽到的根據(jù)與發(fā)音SOM節(jié)點的相關(guān)參數(shù)所產(chǎn)生的聲音而確定的,也就是說,與由該機器人用于產(chǎn)生聲音的參數(shù)相關(guān)的發(fā)音SOM的節(jié)點和被確定為戶主發(fā)出的與該機器人產(chǎn)生聲音相同的聲音的優(yōu)勝者節(jié)點的聽覺SOM節(jié)點之間的連接比其它節(jié)點之間的連接更為加強。這使得該機器人能夠獲得人類社會中實際使用的音素和輸出與從外部輸入的那些聲音相類似的聲音。
更確切地說,當話音從外部輸入到機器人時,該機器人搜索具有與確定為輸入話音的優(yōu)勝者節(jié)點的聽覺SOM的節(jié)點的最強連接的發(fā)音SOM的節(jié)點,并且根據(jù)與發(fā)音SOM中檢測到的節(jié)點相關(guān)的參數(shù)發(fā)出聲音。
在非專利文件1中公開的技術(shù)中,機器人執(zhí)行有指導(dǎo)的學習以便當該機器人發(fā)出的聲音與人類社會中實際使用的聲音中的一種相同時,戶主發(fā)出與該機器人發(fā)出的聲音相同的聲音以表明該聲音是正確的答案。在該技術(shù)中,該機器人不能獲得音素,除非戶主通過發(fā)出與由該機器人(的發(fā)音器)發(fā)出的聲音相同的聲音提供正確的答案。換句話說,不可能執(zhí)行其中沒有提供正確的答案的無指導(dǎo)的學習。
另一方面,在“From Analogous to Digital Speech Sounds”(Oudeyer,P-Y,Tallerman M.,編者,Evolutionary Pre-Requisites for Language.Oxford University Press,2003)(以下,這被稱為非專利文件2)公開的技術(shù)中,執(zhí)行學習以獲得音素以便于在盡可能小的幾種假設(shè)下從連續(xù)的聲音中產(chǎn)生音素成為可能。
也就是說,在非專利文件2中公開的學習方法中,當存在多個代理,其中每個代理具有對應(yīng)于聽覺器的聽覺SOM和對應(yīng)于發(fā)音器的發(fā)音SOM,其中聽覺SOM的節(jié)點和發(fā)音SOM的節(jié)點之間相互映射(連接),發(fā)音SOM的各自節(jié)點的參數(shù)的初始值在開始學習之前均勻的和隨機的分布在參數(shù)空間(發(fā)音空間)上。
注意在開始學習之前,與發(fā)音SOM的節(jié)點相關(guān)的參數(shù)在多個代理之間是不同的。
在學習中,如果不是由本代理發(fā)出的聲音,也就是說由其它代理中的一個發(fā)出的聲音被輸入到本代理,則本代理確定輸入聲音的聽覺SOM的優(yōu)勝者節(jié)點并且修改與聽覺SOM的節(jié)點相關(guān)的參數(shù)。本代理接著搜索具有與聽覺SOM的優(yōu)勝者節(jié)點最強連接的發(fā)音SOM節(jié)點并且使用與發(fā)音SOM中檢測到的節(jié)點相關(guān)的參數(shù)作為參考修改發(fā)音SOM以便每個發(fā)音SOM節(jié)點的參數(shù)和具有與聽覺SOM的優(yōu)勝者節(jié)點的最強連接的發(fā)音SOM節(jié)點的參數(shù)更為相似。
每個代理選擇由該代理擁有的發(fā)音SOM的特定節(jié)點和根據(jù)與所選擇的節(jié)點相關(guān)的參數(shù)發(fā)出聲音。如果與代理發(fā)出的相同聲音被輸入到代理,則該代理為該輸入聲音確定聽覺SOM的優(yōu)勝者節(jié)點和增強發(fā)音SOM的選擇節(jié)點和聽覺SOM的優(yōu)勝者節(jié)點之間的連接。
通過上述處理的重復(fù),多個代理中的每一個中都保留有一組相同的聲音,也就是說,每個代理獲得了一組相同的音素和所有的代理都能夠發(fā)出一組相同的音素。
非專利文件2還公開了通過上面描述的學習,多個代理獲得的音素會聚在一些音素上。
盡管根據(jù)非專利文件2公開的技術(shù)的學習在沒有提供正確答案的無指導(dǎo)學習方式中進行,但是并不意圖獲得人類社會中實際使用的音素,因此代理不必獲得與人類社會中實際使用的那些音素相同的音素。即使由人類用戶發(fā)出的聲音而不是其它代理發(fā)出的聲音被輸入到每個代理時,這也是真實的。
這是因為,在根據(jù)非專利文件2公開的技術(shù)的學習中,使用發(fā)音SOM的一些節(jié)點的參數(shù)作為參考(輸入)來執(zhí)行發(fā)音SOM的修改,因此發(fā)音SOM的節(jié)點的參數(shù)可以僅在參數(shù)的初始值分布的范圍內(nèi)變化(被修改)。為了每個代理可能獲得與人類社會中實際使用的那些音素相同的音素,需要提供分布在整個范圍內(nèi)的值,其中包括有人類社會中使用的所有音素,來作為發(fā)音SOM的節(jié)點的參數(shù)的初始值。但是,很難提供這樣的值。
用戶有意向通過該用戶和該機器人之間的對話來獲得與該用戶使用的音素結(jié)構(gòu)相同的音素結(jié)構(gòu)的機器人提供正確的答案是困難的。
綜上所述,期望機器人通過人-機對話獲得與該用戶使用的音素結(jié)構(gòu)相同的音素結(jié)構(gòu),其中在人-機對話中,該用戶講話時無需考慮提供正確的答案。
為了以上述方式獲得音素結(jié)構(gòu),機器人必須能夠響應(yīng)于加到該機器人上的刺激而自適應(yīng)地反應(yīng),也就是說,該機器人需要根據(jù)用戶的話音自適應(yīng)地講話。也就是說,機器人需要自適應(yīng)的改變由該機器人作為動作發(fā)出的聲音和自我評價所發(fā)出的聲音,即,該機器人需要評價(判斷)該機器人所發(fā)出的聲音是否與用戶發(fā)出的聲音相類似。

發(fā)明內(nèi)容
綜上所述,在機器人或其他類似物主動改變機器人的行為和自我評價該行為以使該行為適應(yīng)從外界提供的刺激的技術(shù)方面,本申請人已經(jīng)公開了一個申請(日本專利申請?zhí)?005-015533,以下本申請僅被稱為在先申請)。
在先申請公開的技術(shù)中,使用一個HMM和多個SOM的組合的自組織算法被用于與聽覺和發(fā)音(聽覺SOM和發(fā)音SOM)相關(guān)的自組織映射,機器人通過使用一種采用每個聽覺SOM節(jié)點和每個發(fā)音SOM節(jié)點之間的映射的機制(使用每個聽覺SOM節(jié)點和每個發(fā)音SOM節(jié)點之間的連接權(quán)重)模仿用戶發(fā)出的音素來自組織地獲得人類社會中使用的音素。利用獲得音素的處理,該機器人能夠更好的模仿音素。
就是說,在先申請公開的技術(shù)中,當聲音從外界輸入到該機器人時,該機器人試圖發(fā)出類似于該輸入聲音的聲音。如果該機器人成功的發(fā)出了類似的聲音,則獲得了一個用于發(fā)出該聲音的連接權(quán)重。通過重復(fù)的執(zhí)行連接權(quán)重的修改(學習),該機器人開始能夠發(fā)出實質(zhì)上與外界使用的那些聲音相同的聲音。換句話說,在先申請公開的技術(shù)中,機器人基于自我評價學習連接權(quán)重,即該機器人通過無指導(dǎo)學習優(yōu)化連接權(quán)重。
在先申請公開的學習方法使實質(zhì)上僅基于自我評價建立合適的映射成為可能。
但是,僅基于機器人的自我評價建立的映射是不完善的,盡管它非常出色。當機器人所做的自我評價是錯誤的時候,該機器人不能識別出自我評價是錯誤的,因此錯誤地建立了映射。
更準確地說,例如,當與聽覺和發(fā)音相關(guān)的自組織映射(聽覺SOM和發(fā)音SOM)和這些自組織映射之間的映射(連接權(quán)重)通過基于該機器人所做的自我評價的學習建立起來時,如果人類用戶發(fā)出的某個音素,諸如“a”,錯誤地關(guān)聯(lián)到對應(yīng)于諸如“e”的錯誤音素的發(fā)音SOM節(jié)點,很難(實際上不可能)通過自我評價改正這個錯誤的映射。
有這樣一種可能,即在發(fā)音SOM上,在語言中實際使用的某個音素,諸如“u”,關(guān)聯(lián)到對應(yīng)于錯誤音素的節(jié)點,諸如在該語言中不會使用的“v”。也很難(實際上不可能)通過自我評價改正這樣一個錯誤的映射。
總之,在先申請公開的學習方法的簡單使用可以導(dǎo)致下面兩種類型的錯誤中的一種。
第一種類型的錯誤是盡管由機器人基于發(fā)音參數(shù)產(chǎn)生的某個音素包括在人類社會實際使用的音素中,但是該音素映射到一個錯誤的音素。
第二種類型的錯誤是由機器人基于發(fā)音參數(shù)產(chǎn)生的某個音素沒有包括在人類社會實際使用的音素中,并且這個音素映射到人類社會中實際使用的一個特定音素。
綜上所述,期望將第一種和第二種類型的錯誤的出現(xiàn)次數(shù)減少到盡可能低的水平,即期望機器人能夠通過主動的改變該機器人的行為以使該行為適應(yīng)從外部施加給該機器人的刺激來建立更多的精確的映射(連接權(quán)重)。
換句話說,期望機器人能夠更準確的產(chǎn)生主動改變該機器人的行為所需要的信息(表示映射或連接權(quán)重),以使該行為適應(yīng)從外部施加到該機器人的刺激。
根據(jù)本發(fā)明的一個實施例,提供了一種信息處理裝置,包括連接網(wǎng)絡(luò)存儲裝置,用于存儲包括有第一自組織映射和第二自組織映射的連接網(wǎng)絡(luò),其中每個自組織映射都包括多個節(jié)點,且該網(wǎng)絡(luò)還包括表示第一自組織映射和第二自組織映射之間的節(jié)點的連接強度的連接權(quán)重;第一學習裝置,用于基于從觀察裝置輸出的觀察值中提取的第一參數(shù)學習第一自組織映射,所述觀察裝置觀察外界和輸出觀察值;優(yōu)勝者節(jié)點確定裝置,用于檢測具有在第一自組織映射中的節(jié)點上觀察到的第一參數(shù)的最大相似性的節(jié)點,確定所檢測到的節(jié)點為優(yōu)勝者節(jié)點;搜索裝置,用于在第二自組織映射內(nèi)搜索具有與該優(yōu)勝者節(jié)點的最高連接強度的節(jié)點和將所檢測到的節(jié)點用作產(chǎn)生節(jié)點;參數(shù)產(chǎn)生裝置,用于從第二產(chǎn)生節(jié)點產(chǎn)生第二參數(shù);確定裝置,用于確定進行第二參數(shù)最終修改的最終條件是否被滿足,其中,根據(jù)優(yōu)勝者節(jié)點執(zhí)行修改,和優(yōu)勝者節(jié)點是根據(jù)當驅(qū)動裝置根據(jù)第二參數(shù)執(zhí)行驅(qū)動操作時由所述觀察裝置觀察到的值來確定的;第一連接權(quán)重修改裝置,用于在滿足最終條件時修改連接權(quán)重;第二連接權(quán)重修改裝置,用于當用戶對在所述驅(qū)動裝置執(zhí)行的驅(qū)動結(jié)果的評價是由用戶作為獎勵提供的時候,修改所述連接權(quán)重;第二學習裝置,基于滿足最終條件時所獲得的第二參數(shù)學習第二自組織映射。
根據(jù)本發(fā)明的一個實施例,提供了一種信息處理方法,包括步驟基于從觀察裝置輸出的觀察值中提取的第一參數(shù)學習存儲在連接網(wǎng)絡(luò)存儲裝置中的第一自組織映射,所述觀察裝置觀察外界和輸出觀察值,所述連接網(wǎng)絡(luò)存儲裝置存儲包括有第一自組織映射和第二自組織映射的連接網(wǎng)絡(luò),其中每個自組織映射都包括多個節(jié)點,且該網(wǎng)絡(luò)還包括表示第一自組織映射和第二自組織映射之間的節(jié)點的連接強度的連接權(quán)重;通過檢測具有在第一自組織映射中的節(jié)點上觀察到的第一參數(shù)的最大似然性的節(jié)點來確定優(yōu)勝者節(jié)點,和確定所檢測到的節(jié)點為優(yōu)勝者節(jié)點;在第二自組織映射內(nèi)搜索具有與該優(yōu)勝者節(jié)點的最高連接強度的節(jié)點和將所檢測到的節(jié)點用作產(chǎn)生節(jié)點;從第二產(chǎn)生節(jié)點產(chǎn)生第二參數(shù);修改從所述產(chǎn)生節(jié)點產(chǎn)生的第二參數(shù);確定進行第二參數(shù)最終修改的最終條件是否被滿足,其中,根據(jù)優(yōu)勝者節(jié)點執(zhí)行修改,和優(yōu)勝者節(jié)點是根據(jù)當驅(qū)動裝置根據(jù)第二參數(shù)執(zhí)行驅(qū)動操作時由所述觀察裝置觀察到的值來確定的;在滿足最終條件時修改連接權(quán)重;當用戶對在所述驅(qū)動裝置執(zhí)行的驅(qū)動結(jié)果的評價是由用戶作為獎勵提供的時候,修改所述連接權(quán)重;和基于滿足最終條件時所獲得的第二參數(shù)學習第二自組織映射。
根據(jù)本發(fā)明的一個實施例,提供了一種程序,包括步驟基于從觀察裝置輸出的觀察值中提取的第一參數(shù)學習存儲在連接網(wǎng)絡(luò)存儲裝置中的第一自組織映射,所述觀察裝置觀察外界和輸出觀察值,所述連接網(wǎng)絡(luò)存儲裝置存儲包括有第一自組織映射和第二自組織映射的連接網(wǎng)絡(luò),其中每個自組織映射都包括多個節(jié)點,以及該網(wǎng)絡(luò)還包括表示第一自組織映射和第二自組織映射之間的節(jié)點的連接強度的連接權(quán)重;通過檢測具有在第一自組織映射中的節(jié)點上觀察到的第一參數(shù)的最大似然性的節(jié)點來確定優(yōu)勝者節(jié)點,和確定所檢測到的節(jié)點為優(yōu)勝者節(jié)點;在第二自組織映射內(nèi)搜索具有與該優(yōu)勝者節(jié)點的最高連接強度的節(jié)點和將所檢測到的節(jié)點用作產(chǎn)生節(jié)點;從第二產(chǎn)生節(jié)點產(chǎn)生第二參數(shù);修改從所述產(chǎn)生節(jié)點產(chǎn)生的第二參數(shù);確定進行第二參數(shù)最終修改的最終條件是否被滿足,其中,根據(jù)優(yōu)勝者節(jié)點執(zhí)行修改,和優(yōu)勝者節(jié)點是根據(jù)當驅(qū)動裝置根據(jù)第二參數(shù)執(zhí)行驅(qū)動操作時由所述觀察裝置觀察到的值來確定的;在滿足最終條件時修改連接權(quán)重;當用戶對在所述驅(qū)動裝置執(zhí)行的驅(qū)動結(jié)果的評價是由用戶作為獎勵提供的時候,修改所述連接權(quán)重;和基于滿足最終條件時所獲得的第二參數(shù)學習第二自組織映射。
本發(fā)明中,基于從觀察裝置輸出的觀察值中提取的第一參數(shù),對存儲在連接網(wǎng)絡(luò)存儲裝置中的第一自組織映射執(zhí)行學習,所述觀察裝置觀察外界和輸出觀察值,所述連接網(wǎng)絡(luò)存儲裝置存儲包括有第一自組織映射和第二自組織映射的連接網(wǎng)絡(luò),其中每個自組織映射都包括多個節(jié)點,且該網(wǎng)絡(luò)還包括表示第一自組織映射和第二自組織映射之間的節(jié)點的連接強度的連接權(quán)重。在第一自組織映射的節(jié)點中,確定與在該節(jié)點觀察到的第一參數(shù)具有最大似然性的節(jié)點為優(yōu)勝者節(jié)點,和從第二自組織映射中搜索具有與該優(yōu)勝者節(jié)點的最強連接的節(jié)點作為產(chǎn)生節(jié)點。于是修改從產(chǎn)生節(jié)點產(chǎn)生的第二參數(shù)。基于根據(jù)當驅(qū)動裝置根據(jù)修改的第二參數(shù)執(zhí)行驅(qū)動操作時由所述觀察裝置觀察到的值來確定的優(yōu)勝者節(jié)點,進行關(guān)于是否滿足修改第二參數(shù)的最終處理的最終條件的確定。如果滿足最終條件則修改連接權(quán)重。當對所述驅(qū)動裝置執(zhí)行的驅(qū)動結(jié)果的評價是由用戶作為獎勵提供的時候,也修改所述連接權(quán)重。此外,基于滿足最終條件時所獲得的第二參數(shù)執(zhí)行第二自組織映射上的學習。
從上面的討論中應(yīng)到理解到,本發(fā)明提供了更大的優(yōu)點。也就是說,機器人或其他類似物可以主動改變它的行為并且可以自我評價該行為以使該行為適應(yīng)外界所給予的刺激。即,機器人可以更準確的產(chǎn)生(修改)信息,諸如表示需要主動改變機器人的行為以使該行為適應(yīng)從外界應(yīng)用到機器人的刺激的映射或連接權(quán)重。


圖1示出了根據(jù)本發(fā)明實施例的信息處理裝置的方框圖;圖2示出了為連接網(wǎng)絡(luò)的結(jié)構(gòu)的實例的示意圖;圖3示出了一種每個聽覺SOM節(jié)點連接到所有發(fā)音SOM節(jié)點的方式;圖4示出了聽覺SOM(發(fā)音SOM)的結(jié)構(gòu)的實例;圖5示出了一個節(jié)點結(jié)構(gòu)的實例;圖6示出了聽覺SOM(發(fā)音SOM)的結(jié)構(gòu)的又一個實例;圖7示出了聽覺SOM(發(fā)音SOM)的結(jié)構(gòu)的又一個實例;圖8示出了學習單元的結(jié)構(gòu)的實例的方框圖;圖9示出了一種確定一確定權(quán)重的方法;圖10示出了一種修改學習數(shù)據(jù)存儲單元中存儲的學習數(shù)據(jù)的方法的示意圖;圖11示出了由學習單元執(zhí)行的學習處理的流程圖;圖12示出了識別單元的結(jié)構(gòu)的實例的方框圖;圖13示出了由識別單元執(zhí)行的識別處理的流程圖;圖14示出了產(chǎn)生單元的結(jié)構(gòu)的實例的方框圖;圖15示出了由產(chǎn)生單元執(zhí)行的產(chǎn)生處理的流程圖;圖16示出了學習單元的結(jié)構(gòu)的實例的方框圖;圖17示出了由學習單元執(zhí)行的學習處理的流程圖;圖18示出了信息處理裝置的操作的流程圖;
圖19示出了一種基于獎勵的連接權(quán)重的有指導(dǎo)學習的方法;圖20示出了基于自我評價學習連接權(quán)重的協(xié)議的實例;圖21示出了基于獎勵執(zhí)行連接權(quán)重的有指導(dǎo)學習的協(xié)議的實例;圖22示出了基于獎勵執(zhí)行連接權(quán)重的有指導(dǎo)學習的協(xié)議的實例;圖23示出了根據(jù)本發(fā)明的一個實施例的信息處理裝置的方框圖。
具體實施例方式
在描述本發(fā)明的實施例之前,首先描述實施例中的部分/步驟的具體實例和各自的權(quán)利要求中的那些部分/步驟之間的對應(yīng)關(guān)系。該描述意圖確保在該說明書中描述了支持所請求的發(fā)明的實施例。因此,即使以下實施例的部件沒有描述為與本發(fā)明的某個特征相關(guān),也不意味著該部件與權(quán)利要求的特征不相關(guān)。相反地,即使部件在這里描述為與權(quán)利要求的某個特征相關(guān),也不意味著該部件與權(quán)利要求的其他特征不相關(guān)。
此外,該描述不應(yīng)當被解釋為限制權(quán)利要求中描述的實施例所公開的本發(fā)明的所有方面。也就是說,本說明書并不否定存在著該發(fā)明申請中沒有要求的本發(fā)明的方面,即,存在的本發(fā)明的方面將來可能以分案申請的形式來請求,或者通過附頁附加請求。
根據(jù)本發(fā)明的一個實施例,提供了一種信息處理裝置,包括有用于存儲連接網(wǎng)絡(luò)的連接網(wǎng)絡(luò)存儲裝置(例如,圖1中示出的存儲單元4),其中連接網(wǎng)絡(luò)包括第一自組織映射和第二自組織映射,每個映射包括多個節(jié)點,且該網(wǎng)絡(luò)還包括表示第一自組織映射和第二自組織映射之間的連接權(quán)重;第一學習裝置(例如,圖1中示出的學習單元3),基于從觀察裝置(例如,圖1中示出的觀察單元1)輸出的觀察值提取的第一參數(shù)(例如,聲學參數(shù))觀察外界和執(zhí)行第一自組織映射的學習;優(yōu)勝者節(jié)點裝置(例如,圖12中示出的優(yōu)勝者節(jié)點確定單元52),用于檢測在第一自組織映射中的該節(jié)點觀察到的與第一參數(shù)具有最高似然性的節(jié)點并確定所檢測到的節(jié)點為優(yōu)勝者節(jié)點;搜索裝置(例如,圖14中示出的產(chǎn)生節(jié)點確定單元61),用于在第二自組織映射內(nèi)搜索具有與優(yōu)勝者節(jié)點最高連接強度的節(jié)點并將所檢測到的節(jié)點用作產(chǎn)生節(jié)點;參數(shù)產(chǎn)生裝置(例如,圖14中示出的時序數(shù)據(jù)產(chǎn)生單元63),用于從所述產(chǎn)生節(jié)點產(chǎn)生第二參數(shù)(例如,發(fā)音參數(shù));修改裝置(例如,圖14示出的模式參數(shù)修改單元62),用于修改所述產(chǎn)生節(jié)點產(chǎn)生的第二參數(shù);確定裝置(例如,圖1中示出的控制單元9),用于確定進行第二參數(shù)最終修改的最終條件是否被滿足,其中根據(jù)優(yōu)勝者節(jié)點執(zhí)行修改,和優(yōu)勝者節(jié)點是根據(jù)當驅(qū)動裝置(例如,圖1中示出的驅(qū)動單元8)根據(jù)第二參數(shù)執(zhí)行驅(qū)動操作時由所述觀察裝置觀察到的值來確定的;第一連接權(quán)重修改裝置(例如,圖16示出的自學習連接權(quán)重修改單元76),用于在滿足最終條件時修改連接權(quán)重;第二連接權(quán)重修改裝置(例如,圖16示出的有指導(dǎo)的學習連接權(quán)重修改單元77),用于當用戶對在所述驅(qū)動裝置執(zhí)行的驅(qū)動結(jié)果的評價是由用戶作為獎勵提供的時候,修改所述連接權(quán)重;第二學習裝置(例如,圖1中示出的學習單元7),用于當滿足最終條件時基于第二參數(shù)學習第二自組織映射。
根據(jù)本發(fā)明的一個實施例,提供了一種信息處理方法,包括步驟基于從觀察裝置(例如圖1中示出的觀察單元1)輸出的觀察值中提取的第一參數(shù)(例如聲學參數(shù))學習存儲在連接網(wǎng)絡(luò)存儲裝置(例如圖1中示出的存儲單元4)中的第一自組織映射,所述觀察裝置觀察外界和輸出觀察值,所述連接網(wǎng)絡(luò)存儲裝置存儲包括有第一自組織映射和第二自組織映射的連接網(wǎng)絡(luò),其中每個自組織映射都包括多個節(jié)點,且該網(wǎng)絡(luò)還包括表示第一自組織映射和第二自組織映射之間的節(jié)點的連接強度的連接權(quán)重(例如圖18中示出的步驟S105);通過檢測具有與在第一自組織映射中的該節(jié)點上觀察到的第一參數(shù)最大似然性的節(jié)點來確定優(yōu)勝者節(jié)點,和確定所檢測到的節(jié)點為優(yōu)勝者節(jié)點(例如圖18中示出的步驟S104);在第二自組織映射內(nèi)搜索具有與該優(yōu)勝者節(jié)點的最高連接強度的節(jié)點和將所檢測到的節(jié)點用作產(chǎn)生節(jié)點(例如圖18中示出的步驟S106);從第二產(chǎn)生節(jié)點產(chǎn)生第二參數(shù)(例如發(fā)音參數(shù))(例如圖18中示出的步驟S109);修改從所述產(chǎn)生節(jié)點產(chǎn)生的第二參數(shù)(例如圖18中示出的步驟S108);確定進行第二參數(shù)最終修改的最終條件是否被滿足,其中,根據(jù)優(yōu)勝者節(jié)點執(zhí)行修改,和優(yōu)勝者節(jié)點是根據(jù)當驅(qū)動裝置(例如圖1中示出的驅(qū)動單元8)根據(jù)第二參數(shù)執(zhí)行驅(qū)動操作時由所述觀察裝置觀察到的值來確定的(例如圖18中示出的步驟S114);在滿足最終條件時修改連接權(quán)重(例如圖18中的步驟S115執(zhí)行的圖17中的步驟S47);當用戶對在所述驅(qū)動裝置執(zhí)行的驅(qū)動結(jié)果的評價是由用戶作為獎勵提供的時候,修改所述連接權(quán)重(例如圖18中的步驟S115執(zhí)行的圖17中的步驟S48);和當滿足最終條件時基于所獲得的第二參數(shù)學習第二自組織映射(例如圖18中的步驟S115執(zhí)行的步驟S45)。
根據(jù)本發(fā)明的一個實施例,提供了一種計算機執(zhí)行的程序,所述程序包括步驟基于從觀察裝置(例如圖1中示出的觀察單元1)輸出的觀察值中提取的第一參數(shù)(例如聲學參數(shù))學習存儲在連接網(wǎng)絡(luò)存儲裝置(例如圖1中示出的存儲單元4)中的第一自組織映射,所述觀察裝置觀察外界和輸出觀察值,所述連接網(wǎng)絡(luò)存儲裝置存儲包括有第一自組織映射和第二自組織映射的連接網(wǎng)絡(luò),其中每個自組織映射都包括多個節(jié)點,且該網(wǎng)絡(luò)還包括表示第一自組織映射和第二自組織映射之間的節(jié)點的連接強度的連接權(quán)重(例如圖18中示出的步驟S105);通過檢測具有與在第一自組織映射中的該節(jié)點上觀察到的第一參數(shù)最大似然性的節(jié)點來確定優(yōu)勝者節(jié)點,和確定所檢測到的節(jié)點為優(yōu)勝者節(jié)點(例如圖18中示出的步驟S104);在第二自組織映射內(nèi)搜索具有與該優(yōu)勝者節(jié)點的最高連接強度的節(jié)點和將所檢測到的節(jié)點用作產(chǎn)生節(jié)點(例如圖18中示出的步驟S106);從第二產(chǎn)生節(jié)點產(chǎn)生第二參數(shù)(例如發(fā)音參數(shù))(例如圖18中示出的步驟S109);修改從所述產(chǎn)生節(jié)點產(chǎn)生的第二參數(shù)(例如圖18中示出的步驟S108);確定進行第二參數(shù)最終修改的最終條件是否被滿足,其中,根據(jù)優(yōu)勝者節(jié)點執(zhí)行修改,和優(yōu)勝者節(jié)點是根據(jù)當驅(qū)動裝置(例如圖1中示出的驅(qū)動單元8)根據(jù)第二參數(shù)執(zhí)行驅(qū)動操作時由所述觀察裝置觀察到的值來確定的(例如圖18中示出的步驟S114);在滿足最終條件時修改連接權(quán)重(例如圖18中的步驟S115執(zhí)行的圖17中的步驟S47);當用戶對在所述驅(qū)動裝置執(zhí)行的驅(qū)動結(jié)果的評價是由用戶作為獎勵提供的時候,修改所述連接權(quán)重(例如圖18中的步驟S115執(zhí)行的圖17中的步驟S48);和當滿足最終條件時基于所獲得的第二參數(shù)學習第二自組織映射(例如圖18中的步驟S115執(zhí)行的步驟S45)。
現(xiàn)在,在下文結(jié)合附圖對根據(jù)本發(fā)明的具體實施例進行描述。
圖1示出了根據(jù)本發(fā)明實施例的信息處理裝置。
這個信息處理裝置可以應(yīng)用于,例如負責與機器人的語音/聲音相關(guān)的處理的部分,機器人例如是雙足或四足會走的機器人。
觀察單元1觀察外界并輸出一個觀察值。觀察單元1包括,例如,傳感器,諸如用于檢測語音(聲音)的麥克風,放大器和模數(shù)轉(zhuǎn)換器。如果觀察單元1檢測到用戶發(fā)出的語音和其他聲音,該觀察單元1將所獲得的表示觀察值的語音/聲音數(shù)據(jù)提供給特征提取單元2。
注意,在上述處理中,觀察單元1檢測從外部輸入的語音(聲音)的聲音持續(xù)時間,并在該聲音持續(xù)時間內(nèi)檢測到的語音/聲音數(shù)據(jù)提供給特征提取單元2。但是,從觀察單元1向特征提取單元2提供的語音/聲音數(shù)據(jù)并不需要具有與聲音持續(xù)時間相等的長度,但是語音/聲音數(shù)據(jù)可以具有合適的確定的長度。例如,觀察單元1可以以通過停頓劃界的音素、詞語、句子或段落為單位向特征提取單元2提供語音/聲音數(shù)據(jù)。從觀察單元1特征向提取單元2提供的語音/聲音數(shù)據(jù)可以通過固定方法或可變方法進行劃界。
盡管在本發(fā)明實施例中,假定觀察單元1觀察到在外界中出現(xiàn)的語音/聲音,諸如由用戶發(fā)出的語音,和觀察單元1輸出語音/聲音數(shù)據(jù)作為觀察值,然而受到觀察的事件不僅限于語音/聲音。例如觀察單元1可以包括一個照相機,其作為傳感器來觀察出現(xiàn)在外界中的光線并輸出圖像數(shù)據(jù)作為觀察值??蛇x地,觀察單元1可以包括傳感器,用于觀察另一個物理量,諸如周圍溫度、外界應(yīng)用的壓力等。
觀察單元1觀察到兩種類型的語音/聲音。第一種類型的語音/聲音是用戶發(fā)出的那些,第二種類型的語音/聲音是后面將要描述的由驅(qū)動單元8輸出的(合成的)那些。驅(qū)動單元8輸出的語音/聲音進一步分為兩組;用戶給予獎勵的語音/聲音和用戶沒有給予獎勵的語音/聲音。注意圖1中的信息處理裝置構(gòu)造為獎勵采集單元9獲得的獎勵不僅提供給學習單元7(隨后進行詳細描述),還提供給觀察單元1,因此,如果需要,觀察單元1可以將表示是否已經(jīng)給予獎勵的信息與語音/聲音數(shù)據(jù)一起提供給特征提取單元2。
特征提取單元2從觀察單元1輸出的數(shù)據(jù)中提取特征值(第一參數(shù))和把提取的特征值輸出給學習單元3和識別單元5。也就是說,特征提取單元2提取聲學參數(shù)作為從觀察單元1輸出的語音/聲音數(shù)據(jù)的特征值和把所提取的聲學參數(shù)提供給學習單元3和識別單元5。更準確地說,特征提取單元2周期地執(zhí)行諸如對觀察單元1提供的語音/聲音的頻率分析的處理來提取諸如適于話音識別的MFCC(Mel Frequency Cepstrum Coefficient)的聲學參數(shù),特征提取單元2把所提取的聲學參數(shù)提供給學習單元3和識別單元5。
因為從觀察單元1向特征提取單元2提供的語音/聲音數(shù)據(jù)是以時序數(shù)據(jù)的形式并且特征提取單元2輸出的聲學參數(shù)是通過以時序數(shù)據(jù)的形式在語音/聲音數(shù)據(jù)上周期地執(zhí)行處理獲得的,特征提取單元2輸出的聲學參數(shù)也是時序數(shù)據(jù)的形式。
在下文中,時序數(shù)據(jù)形式的聲學參數(shù)簡單的稱為聲學參數(shù)序列。
基于特征提取單元2提供的聲學參數(shù)序列,學習單元3在聽覺SOM方面執(zhí)行學習(修改),這是與連接網(wǎng)絡(luò)相關(guān)的自組織映射并且存儲在存儲單元4中。隨后將詳細描述聽覺SOM。
更準確地說,大量的聲學參數(shù)序列從特征提取單元2輸入到學習單元3,學習單元3獲得表示模式(時序模式),其特征為通過無指導(dǎo)學習的方法以自組織方式的大量聲學參數(shù)序列。因此,從特征提取單元2向?qū)W習單元3提供的大量聲學參數(shù)序列的模式表示以高度有效的方式存儲在與存儲單元4中存儲的連接網(wǎng)絡(luò)相關(guān)的聽覺SOM中。即,從特征提取單元2向?qū)W習單元3和識別單元5提供的大量聲學參數(shù)序列可被分類為表示模式(時序模式),并且學習單元3執(zhí)行學習以在聽覺SOM中存儲聲學參數(shù)序列的典型時序模式。
存儲單元4還存儲連接網(wǎng)絡(luò)。連接網(wǎng)絡(luò)包括聽覺SOM和發(fā)音SOM,它們都是自組織映射,其中每個自組織映射都包括多個節(jié)點,且該網(wǎng)絡(luò)還包括表示聽覺SOM的節(jié)點和發(fā)音SOM的節(jié)點之間的連接強度的連接權(quán)重。隨后將詳細描述連接網(wǎng)絡(luò)。
識別單元5使用特征提取單元2根據(jù)與存儲單元4中存儲的連接網(wǎng)絡(luò)相關(guān)的聽覺SOM提供的聲學參數(shù)序列,在觀察單元1觀察到的語音/聲音上執(zhí)行話音識別處理,并且識別單元5向產(chǎn)生單元6提供語音/聲音的識別結(jié)果。
基于識別單元5提供的識別結(jié)果,產(chǎn)生單元6在存儲單元4中搜索與連接網(wǎng)絡(luò)相關(guān)的發(fā)音SOM的特定節(jié)點。使用檢測到的節(jié)點,產(chǎn)生單元6于是產(chǎn)生用作第二參數(shù)的發(fā)音參數(shù)來驅(qū)動驅(qū)動單元8,并且向?qū)W習單元7和驅(qū)動單元8提供所產(chǎn)生的發(fā)音參數(shù)。
產(chǎn)生單元6輸出的發(fā)音參數(shù)也是以與特征提取單元2輸出的聲學參數(shù)相同的時序數(shù)據(jù)的形式。在下文中,時序數(shù)據(jù)形式的發(fā)音參數(shù)將被稱為發(fā)音參數(shù)序列。
注意產(chǎn)生單元6產(chǎn)生的參數(shù)被用于驅(qū)動驅(qū)動單元8,并且只要驅(qū)動單元8能夠訪問產(chǎn)生單元6產(chǎn)生的參數(shù),則對于該參數(shù)類型沒有特定的限制。例如,當驅(qū)動單元8是一個發(fā)動機,其接受表示旋轉(zhuǎn)角度或旋轉(zhuǎn)速度的命令并且根據(jù)該命令旋轉(zhuǎn),該命令是由產(chǎn)生單元6作為參數(shù)產(chǎn)生的。在一個實例中,驅(qū)動單元8是根據(jù)輸入矢量合成語音的語音合成器,該矢量是由產(chǎn)生單元6作為參數(shù)產(chǎn)生的,其中輸入矢量的元素包括與要產(chǎn)生的語音波形相關(guān)的音素、重音、音調(diào)頻率等。
基于產(chǎn)生單元6提供的發(fā)音參數(shù)序列,學習單元7以一種和學習單元3在聽覺SOM上執(zhí)行的學習相類似的方式執(zhí)行發(fā)音SOM方面的學習(修改),這是與存儲單元4中存儲的連接網(wǎng)絡(luò)相關(guān)的自組織映射。
學習單元7還執(zhí)行與存儲單元4中存儲的連接網(wǎng)絡(luò)相關(guān)的連接權(quán)重的學習(修改)。如下將要進行詳細描述的,連接權(quán)重的學習(修改)以一種有指導(dǎo)方式或無指導(dǎo)方式進行。在無指導(dǎo)的學習方式中,基于信息處理裝置輸出的(合成的)語音/聲音上的自我評價執(zhí)行學習。在有指導(dǎo)的學習方式中,信息處理裝置輸出的(合成的)語音/聲音由用戶進行評價并且用戶根據(jù)評價給予獎勵。使用所給予的獎勵作為訓(xùn)練信號,執(zhí)行學習。
驅(qū)動單元8根據(jù)產(chǎn)生單元6提供的發(fā)音參數(shù)執(zhí)行驅(qū)動操作。更準確地說,驅(qū)動單元8包括,例如,語音合成器、放大器、數(shù)模轉(zhuǎn)換器和揚聲器,驅(qū)動單元8根據(jù)發(fā)音參數(shù)合成語音并且輸出最后合成的語音。
至于用作驅(qū)動單元8的語音合成裝置,可以使用適用于于合成對應(yīng)于輸入文本信息的語音的TTS(Text To Speech,文本向話音轉(zhuǎn)換)的模塊,即適用于于根據(jù)輸入文本信息的分析結(jié)果獲得的矢量來合成語音的模塊。在本例中,發(fā)音參數(shù)序列是基于輸入文本數(shù)據(jù)的分析獲得的矢量時序。
盡管在本實施例中,語音合成裝置用作驅(qū)動單元8來產(chǎn)生合成的聲音,但是該驅(qū)動單元8不限于語音合成裝置。例如,可以采用激勵器(發(fā)動機)作為驅(qū)動單元8來移動機器人的一部分,諸如胳膊或腳。在本例中,產(chǎn)生用于驅(qū)動激勵器的參數(shù)并提供給學習單元7和驅(qū)動單元8。
獎勵采集單元9獲得由用戶基于信息處理裝置本身輸出的合成語音給予的作為獎勵的評價,并且獎勵采集單元9把獲得的評價提供給觀察單元1和學習單元7。正如隨后將要詳細描述的,有兩種類型的獎勵,其中之一是當用戶評價由信息處理裝置輸出的合成語音實質(zhì)上等于從外部輸入的語音時給予的肯定獎勵,另外一種類型是當用戶評價合成語音不同于外部輸入的語音時給予的否定獎勵。
控制單元10從各種部分(包括觀察單元1到獎勵采集單元9)接收必要的數(shù)據(jù)(信息),并且控制單元10根據(jù)接收的數(shù)據(jù)控制各自部分(包括觀察單元1到獎勵采集單元9)??刂茊卧?0通過連接線連接到各自部分(包括觀察單元1到獎勵采集單元9)以向它們發(fā)送數(shù)據(jù)/從它們接收數(shù)據(jù)。但是,出于簡化目的,圖1中沒有示出連接線。
圖2示出了圖1中所示的存儲單元4中存儲的連接網(wǎng)絡(luò)的結(jié)構(gòu)的實例的示意圖。
如上所述,連接網(wǎng)絡(luò)包括聽覺SOM、發(fā)音SOM和連接權(quán)重。
聽覺SOM和發(fā)音SOM是自組織映射,每個都包括多個節(jié)點。在常規(guī)的自組織映射中,每個自組織映射的每個節(jié)點有一個參數(shù),每個參數(shù)的形式是具有特定數(shù)量的元素的矢量形式。與此相反,在與連接網(wǎng)絡(luò)相關(guān)的聽覺SOM和發(fā)音SOM的自組織映射中,每個自組織映射的每個節(jié)點有表示時序模式的時序模式模型。隨后將詳細描述與連接網(wǎng)絡(luò)相關(guān)的聽覺SOM和發(fā)音SOM的自組織映射。
在與連接網(wǎng)絡(luò)相關(guān)的聽覺SOM和發(fā)音SOM中,如圖3所示,聽覺SOM的每個節(jié)點與發(fā)音SOM的所有節(jié)點相連接。在連接網(wǎng)絡(luò)中,定義了表示聽覺SOM的每個節(jié)點和發(fā)音SOM的每個節(jié)點之間的連接強度的連接權(quán)重。
連接網(wǎng)絡(luò)的自組織映射,即聽覺SOM和發(fā)音SOM,形成了包括多個節(jié)點的網(wǎng)絡(luò),其中每個節(jié)點具有表示時序模式的時序模式模型,因此可以說它們是其中存儲有時序模式的時序模式存儲網(wǎng)絡(luò)。時序模式存儲網(wǎng)絡(luò)存儲與時序模式存儲網(wǎng)絡(luò)中的節(jié)點一樣多(分組)的時序模式。
圖4示出了時序模式存儲網(wǎng)絡(luò)的實例的示意圖。
在圖4所示的實例中,時序模式存儲網(wǎng)絡(luò)包括六個節(jié)點N1到N6。
時序模式存儲網(wǎng)絡(luò)的每個節(jié)點Ni(在圖4所示的實例中,i=1,2,...,6)具有一種表示時序模式的時序模式的方式。每個節(jié)點Ni與另外一個節(jié)點Nj(在圖4所示的實例中,j=1,2,...,6)具有連接。這種連接稱為鏈接。在圖5所示的時序模式存儲網(wǎng)絡(luò)中,例如,節(jié)點N1之間鏈接到節(jié)點N2和N3。另一方面,節(jié)點N3之間鏈接到節(jié)點N1、N2、N5和N6,因此節(jié)點N5和N6通過節(jié)點N3間接的鏈接到節(jié)點N1。兩個節(jié)點Ni和Nj之間的連接關(guān)系通過兩個節(jié)點Ni和Nj之間的最短連接路徑來定義。
使用時序數(shù)據(jù)作為無指導(dǎo)的學習方式下的學習數(shù)據(jù)來執(zhí)行時序模式存儲網(wǎng)絡(luò)的學習,在無指導(dǎo)的學習方式下,不提供表示學習數(shù)據(jù)所屬的種類(分類)的正確答案。
圖5示出了一個時序模式存儲網(wǎng)絡(luò)的節(jié)點Ni的結(jié)構(gòu)的實例的示意圖。
節(jié)點Ni包括表示時序模式的時序模式模型21和適用于于存儲學習數(shù)據(jù)的學習數(shù)據(jù)存儲單元22,其中的學習數(shù)據(jù)是在時序模式模型21的學習中使用的時序數(shù)據(jù)。
在圖5所示的實例中,狀態(tài)轉(zhuǎn)換幾率模型之一的HMM(連續(xù)的HMM),被用作時序模式模型21。在圖5所示的實例中,HMM有三個狀態(tài)S1、S2和S3,每個HMM是從左到右的類型,其中僅允許有一個自環(huán)和一種向下一個狀態(tài)(右邊的)的轉(zhuǎn)換。在圖5所示的時序模式模型21中,每個圓表示一種狀態(tài),每個箭頭表示一種狀態(tài)轉(zhuǎn)換。注意用作時序模式模型21的HMM不限于從左到右的類型,并且狀態(tài)的數(shù)目不限于3種。
諸如在圖5所示的HMM用作時序模式模型21的情況中,通過狀態(tài)轉(zhuǎn)換幾率來定義用作時序模式模型21的HMM并且輸出幾率密度函數(shù)(當HMM是離散HMM時,輸出是純量的離散符號的幾率。)狀態(tài)轉(zhuǎn)換幾率稱為出現(xiàn)在HMM中的狀態(tài)轉(zhuǎn)換的幾率,圖5所示的時序模式模型21中的每個箭頭表示的每種狀態(tài)轉(zhuǎn)換定義狀態(tài)轉(zhuǎn)換幾率。輸出幾率密度函數(shù)表示當一種狀態(tài)轉(zhuǎn)換出現(xiàn)時從HMM觀察到的值的幾率密度。例如,一種被污染的正常的分布函數(shù)被用作輸出幾率密度函數(shù)。HMM的參數(shù)(狀態(tài)轉(zhuǎn)換幾率和輸出幾率密度函數(shù))的學習(估計)可以利用例如Baum-Welch方法來進行。
在節(jié)點Ni,學習數(shù)據(jù)存儲單元22中存儲的學習數(shù)據(jù)的統(tǒng)計特征,即學習數(shù)據(jù)存儲單元22中存儲的學習數(shù)據(jù)的時序模式,由時序模式模型21來學習,因此學習數(shù)據(jù)存儲單元22中存儲的學習數(shù)據(jù)與時序模式模型21相關(guān)。
在以時序模式存儲網(wǎng)絡(luò)形式的聽覺SOM的節(jié)點Ni處,聲學參數(shù)序列在學習數(shù)據(jù)存儲單元22中存儲為學習數(shù)據(jù)。另一方面,在發(fā)音SOM的節(jié)點Ni處以時序模式存儲網(wǎng)絡(luò)的形式,發(fā)音參數(shù)序列在學習數(shù)據(jù)存儲單元22中被存儲為學習數(shù)據(jù)。
圖6示出了時序模式模型網(wǎng)絡(luò)的另外一個實例的示意圖。
在圖6所示的實例中,時序模式模型網(wǎng)絡(luò)包括以二維方式排列的九個節(jié)點N1到N9。更準確地說,在圖6所示的實例中,九個節(jié)點N1到N9在二維平面上以3×3陣列的形式排列。
在圖6所示的時序模式存儲網(wǎng)絡(luò)中,九個二維排列的節(jié)點N1到N9是如此鏈接的,在水平方向上相互之間直接相鄰的節(jié)點相互之間鏈接,在垂直方向上相互之間直接相鄰的節(jié)點相互之間鏈接。通過在時序模式存儲網(wǎng)絡(luò)中的節(jié)點中如此鏈接,定義了二維空間排列結(jié)構(gòu)。
在時序模式存儲網(wǎng)絡(luò)中,任意兩個節(jié)點間的距離基于空間節(jié)點排列結(jié)構(gòu)通過節(jié)點間的鏈接來定義,并且兩個節(jié)點間的距離可以用作表示兩個時序模式之間的距離的模式間距離,其中兩個時序模式是時序模式模型21在兩個節(jié)點處提供的(注意這種方式定義的模式間距指示了兩個時序模式之間的相似性)。
通過兩個節(jié)點之間的距離定義的兩個時序模式間的模式間距可以被稱為基于兩個節(jié)點間的連接(鏈接)關(guān)系而定義的。
兩個節(jié)點間的距離可以通過兩個節(jié)點間的最短路徑中包括的鏈接數(shù)量來定義。這樣,當提供一個關(guān)心節(jié)點時,具有到該關(guān)心節(jié)點的直接鏈接的節(jié)點(在圖6所示的實例中,在水平方向或垂直方向上直接相鄰到關(guān)心節(jié)點的節(jié)點)具有到該關(guān)心節(jié)點的最短距離,并且通過來自具有到該關(guān)心節(jié)點直接鏈接的節(jié)點的一個或多個進一步的鏈接可以到達的節(jié)點,是遠離該關(guān)心節(jié)點的,以及該距離隨著來自該關(guān)心節(jié)點的路徑中包括的鏈接數(shù)量而增加。
注意節(jié)點間的鏈接不限于圖4或圖6中示出的那些。盡管在圖4和圖6示出的實例中,鏈接定義了二維節(jié)點排列結(jié)構(gòu),但是鏈接可以是由鏈接定義的一維或三維節(jié)點排列結(jié)構(gòu)。注意節(jié)點不是必定需要具有鏈接。
圖7示出了時序模式存儲網(wǎng)絡(luò)的另一個實例的示意圖。
在圖7所示的實例中,時序模式存儲網(wǎng)絡(luò)與圖4中所示的時序模式存儲網(wǎng)絡(luò)類似,是因為它有六個節(jié)點N1到N6,但是它的不同在于,這些六個節(jié)點N1到N6中的任何一個都有一個鏈接。因此,在圖7所示的時序模式存儲網(wǎng)絡(luò)的實例中,節(jié)點N1到N6沒有通過鏈接定義的空間排列結(jié)構(gòu)。注意沒有空間排列結(jié)構(gòu)可以被說成是沒有空間限制的排列結(jié)構(gòu)。
當兩個節(jié)點間沒有鏈接時,不可能在該兩個節(jié)點間定義空間距離,因此不可能使用基于連接(鏈接)關(guān)系的模式間距來表示通過兩個各自節(jié)點(的時序模式模型21)表示的時序模式之間的距離。這種情況下,模式間距可以通過對應(yīng)于特定時序數(shù)據(jù)(觀察值)和關(guān)心節(jié)點的相似性順序的值給出。注意對于與時序數(shù)據(jù)最為相似的節(jié)點相似性順序是1,對于第二相似的節(jié)點是2,對于第三相似的節(jié)點是3,等等。下文中,以這種方式定義的順序被簡單的稱為相似性順序。
也就是說,通過節(jié)點到給定時序數(shù)據(jù)表示的時序模式的相似性可以被定義為節(jié)點的相似性。這里,如果在時序模式存儲網(wǎng)絡(luò)中的所有節(jié)點中,具有與給定時序數(shù)據(jù)最高相似性的節(jié)點被稱為優(yōu)勝者節(jié)點,那么由該優(yōu)勝者節(jié)點表示的時序模式和由時序模式存儲網(wǎng)絡(luò)中的任意節(jié)點表示的時序模式之間的模式間距可以通過對應(yīng)于該節(jié)點和時序數(shù)據(jù)的相似性的順序(相似性順序)的值給出。
更準確地說,時序模式存儲網(wǎng)絡(luò)的所有節(jié)點中,優(yōu)勝者節(jié)點具有第一相似性順序,因此可以提供這個節(jié)點(優(yōu)勝者節(jié)點)到優(yōu)勝者節(jié)點的模式間距(更嚴格地,是由這些各自的節(jié)點表示的時序節(jié)點之間的模式間距),例如通過從相似性順序中減去1而獲得的值,即模式間距提供為0。
在時序模式存儲網(wǎng)絡(luò)中,具有第二相似性順序的節(jié)點和優(yōu)勝者節(jié)點之間的模式間距可以通過例如從相似性順序中減去1獲得的值來提供。類似的,優(yōu)勝者節(jié)點和任意節(jié)點之間的模式間距可以通過從這個任意節(jié)點的相似性順序中減去1獲得的值來提供。
通過對應(yīng)于一個節(jié)點在與特定時序數(shù)據(jù)相似性方面的相似性順序的值給出的模式間距,可以說成是基于該節(jié)點到該時序數(shù)據(jù)的相似性的模式間距。
圖8示出了圖1中所示的學習單元3的結(jié)構(gòu)的實例。
聲學參數(shù)序列(在由觀察單元1檢測的聲音持續(xù)時間中)作為新時序數(shù)據(jù)被從特征提取單元2(圖1)提供到學習單元3。學習單元3基于從特征提取單元2提供的新時序數(shù)據(jù),通過修改時序模式存儲網(wǎng)絡(luò),自組織存儲單元4中以時序模式存儲網(wǎng)絡(luò)形式存儲的連接網(wǎng)絡(luò)中的聽覺SOM。
更準確地說,分數(shù)計算單元41為以時序模式存儲網(wǎng)絡(luò)形式存儲在存儲單元4中的聽覺SOM的所有節(jié)點,計算指示節(jié)點和特征提取單元2以時序數(shù)據(jù)形式提供的新聲學參數(shù)序列的相似性的分數(shù),并且分數(shù)計算單元41向優(yōu)勝者節(jié)點確定單元42提供所計算的各自節(jié)點的分數(shù)。例如,當諸如圖5所示的HMM用作每個節(jié)點的時序模式模型21,分數(shù)計算單元41根據(jù)用作每個節(jié)點的時序模式模型21的HMM,確定觀察到的特征提取單元2提供的新聲學參數(shù)序列的似然性,和分數(shù)計算單元41將所計算的似然性作為各自節(jié)點的分數(shù)提供給優(yōu)勝者節(jié)點確定單元42。
優(yōu)勝者節(jié)點確定單元42從以時序模式存儲網(wǎng)絡(luò)的形式存儲在存儲單元4中的聽覺SOM的所有節(jié)點中選擇出一個與特征提取單元2提供的新聲學參數(shù)序列最相似的節(jié)點,優(yōu)勝者節(jié)點確定單元42將所選擇的節(jié)點作為優(yōu)勝者節(jié)點。
也就是說,優(yōu)勝者節(jié)點確定單元42從存儲單元4中存儲的聽覺SOM的節(jié)點中檢測到一個具有通過分數(shù)計算單元41計算的最高分數(shù)的節(jié)點,和優(yōu)勝者節(jié)點確定單元42確定所檢測到的節(jié)點作為優(yōu)勝者節(jié)點。優(yōu)勝者節(jié)點確定單元42將表示優(yōu)勝者節(jié)點的信息提供給修改權(quán)重確定單元43。
為了識別時序模式存儲網(wǎng)絡(luò)的節(jié)點,可以給各個節(jié)點分配節(jié)點標記,分配給優(yōu)勝者節(jié)點的節(jié)點標記可以用作表示優(yōu)勝者節(jié)點的信息。注意節(jié)點標記僅識別出節(jié)點而不表示正確的答案。
依據(jù)優(yōu)勝者節(jié)點確定單元42提供的節(jié)點標記表示的優(yōu)勝者節(jié)點,修改權(quán)重確定單元43為存儲單元4中存儲的聽覺SOM的每個節(jié)點確定一個確定權(quán)重,這將在后面進行詳細描述,并且修改權(quán)重確定單元43將確定的每個節(jié)點的確定權(quán)重提供給學習數(shù)據(jù)修改單元44。
更準確地說,修改權(quán)重確定單元43根據(jù)每個節(jié)點和優(yōu)勝者節(jié)點之間的模式間距確定存儲單元4中存儲的聽覺SOM的每個節(jié)點(包括優(yōu)勝者節(jié)點)的確定權(quán)重,并且修改權(quán)重確定單元43將確定的每個節(jié)點的確定權(quán)重提供給學習數(shù)據(jù)修改單元44。
因此,使用特征提取單元2提供的新聲學參數(shù)序列來修改每個節(jié)點的時序模式模型21(圖5)。在時序模式模型21的修改中,確定權(quán)重規(guī)定了新聲學參數(shù)序列對修改的影響程度。例如,當特定節(jié)點的確定權(quán)重為0時,該節(jié)點的時序模式模型21不受新聲學參數(shù)序列的影響(不被修改)。
對于在確定存儲單元4中存儲的聽覺SOM的每個節(jié)點的確定權(quán)重的處理中由修改權(quán)重確定單元43使用的模式間距,基于某個節(jié)點和優(yōu)勝者節(jié)點之間的連接關(guān)系的模式間距可以用于這種情況,即聽覺SOM的節(jié)點具有象圖4或圖6所示的實例那樣的鏈接。在聽覺SOM的節(jié)點如同圖7所示的實例那沒有鏈接的情況下,可以基于聽覺SOM的每個節(jié)點與特征提取單元2提供的新聲學參數(shù)序列的相似性順序來定義模式間距離。
更準確地說,修改權(quán)重確定單元43檢查存儲單元4中存儲的聽覺SOM來基于聽覺SOM的每個節(jié)點和優(yōu)勝者節(jié)點之間的連接關(guān)系確定模式間距,其中所述的優(yōu)勝者節(jié)點是由優(yōu)勝者節(jié)點確定單元42提供的節(jié)點標記表示的,修改權(quán)重確定單元43基于所述的模式間距離確定聽覺SOM的每個節(jié)點的確定權(quán)重。
可選地,修改權(quán)重確定單元43以與分數(shù)計算單元41確定分數(shù)相似的方式檢查存儲單元4中存儲的聽覺SOM來確定表示聽覺SOM的每個節(jié)點與特征提取單元2提供的新聲學參數(shù)序列的相似性的分數(shù)。修改權(quán)重確定單元43可以進一步基于每個節(jié)點的分數(shù)確定對應(yīng)于該相似性順序的值和基于聽覺SOM的每個節(jié)點到新聲學參數(shù)序列的相似性將該值用作模式間距?;谒瞿J介g距,可以確定每個聽覺SOM節(jié)點的確定權(quán)重。
可以通過修改權(quán)重確定單元43確定每個節(jié)點的分數(shù),或通過分數(shù)計算單元41確定的分數(shù)可以提供給修改權(quán)重確定單元43。
學習數(shù)據(jù)修改單元44為存儲單元4中存儲的聽覺SOM的每個節(jié)點修改學習數(shù)據(jù)存儲單元22(圖5)中存儲的學習數(shù)據(jù)。
更準確地說,對于每個節(jié)點,學習數(shù)據(jù)修改單元44以對應(yīng)于修改權(quán)重確定單元43提供的每個節(jié)點的確定權(quán)重的比率,把學習數(shù)據(jù)存儲單元22中存儲的現(xiàn)有學習數(shù)據(jù)和特征提取單元2中提供的新聲學參數(shù)序列混合在一起,和學習數(shù)據(jù)修改單元44將結(jié)果作為新學習數(shù)據(jù)存儲到學習數(shù)據(jù)存儲單元22中從而修改學習數(shù)據(jù)存儲單元22中的內(nèi)容。
當學習數(shù)據(jù)修改單元44以上述方式修改了學習數(shù)據(jù)存儲單元22(圖5)中存儲的學習數(shù)據(jù)之后,學習數(shù)據(jù)修改單元44將完成通知提供給模型學習單元45以通知修改完成。
如果模型學習單元45從學習數(shù)據(jù)修改單元44接收到完成通知,模型學習單元45通過使用學習數(shù)據(jù)對時序模式模型21執(zhí)行學習以便修改存儲單元4中存儲的聽覺SOM的每個節(jié)點的時序模式模型21,其中所述的學習數(shù)據(jù)是由數(shù)據(jù)修改單元44修改的并且是存儲在學習數(shù)據(jù)存儲單元22(圖5)中的。
因此,在模型學習單元45為了修改每個節(jié)點的時序模式模型21而進行的處理中,修改是基于與學習數(shù)據(jù)存儲單元22(圖5)中存儲的每個節(jié)點相關(guān)的學習數(shù)據(jù)(的部分)和基于特征提取單元2提供的新聲學參數(shù)序列執(zhí)行的。因為學習數(shù)據(jù)存儲單元22的內(nèi)容依據(jù)確定權(quán)重進行修改,可以說模型學習單元45執(zhí)行的對時序模式模型21的修改是基于確定權(quán)重的。
圖9示出了由圖8所示的修改權(quán)重確定單元43確定一個確定權(quán)重的方法。
修改權(quán)重確定單元43例如根據(jù)一個曲線(距離-權(quán)重曲線)來確定每個節(jié)點的確定權(quán)重,其中曲線表示確定權(quán)重(α)在該節(jié)點和優(yōu)勝者節(jié)點之間的模式間距(d)上的關(guān)系曲線(注意如圖9所示確定權(quán)重(α)隨模式間距(d)的增大而減小)。根據(jù)距離-權(quán)重曲線,確定為每個節(jié)點的確定權(quán)重(α),這樣確定權(quán)重(α)隨著每個節(jié)點和優(yōu)勝者節(jié)點之間的模式間距(d)的減小而增加,以及確定權(quán)重(α)隨著每個節(jié)點和優(yōu)勝者節(jié)點之間的模式間距(d)的增加而減小。
在圖9所示的距離-權(quán)重圖中,水平軸表示修改權(quán)重α(從左到右增加),垂直軸表示模式間距d(從上到下增加)。
在圖9中,基于節(jié)點連接關(guān)系定義模式間距d,即通過從優(yōu)勝者節(jié)點到每個節(jié)點的距離來定義模式間距d,并且聽覺SOM的六個節(jié)點N1到N6拉到沿水平軸的位置,這樣圖9中的每個節(jié)點Ni的位置表示每個節(jié)點Ni離優(yōu)勝者節(jié)點的距離。
圖9中,聽覺SOM的六個節(jié)點N1到N6離優(yōu)勝者節(jié)點的距離從N1到N6的順序增加。在聽覺SOM的六個節(jié)點N1到N6中,節(jié)點N1到優(yōu)勝者節(jié)點的距離是最小的(等于0),即節(jié)點N1本身是優(yōu)勝者節(jié)點。
諸如圖6所示的,在聽覺SOM具有二維節(jié)點排列結(jié)構(gòu)的情況下,例如,節(jié)點N6是優(yōu)勝者節(jié)點,節(jié)點N6和優(yōu)勝者節(jié)點(節(jié)點N6本身)之間的距離等于0(即最小的),節(jié)點N6和優(yōu)勝者節(jié)點(節(jié)點N6本身)之間的模式間距也等于0(即最小的)。從優(yōu)勝者節(jié)點N6到N3、N5和N9中的每個節(jié)點的距離等于1(即第二最小的),從N3、N5和N9中的任意節(jié)點到優(yōu)勝者節(jié)點N6的模式間距也等于1。從優(yōu)勝者節(jié)點N6到N2、N4和N8中的每個節(jié)點的距離等于2(即第三最小的),從N2、N4和N8中的任意節(jié)點到優(yōu)勝者節(jié)點N6的模式間距也等于2。從優(yōu)勝者節(jié)點N6到N1和N7中的每個節(jié)點的距離等于3(即最大的),從N1和N7中的任一個節(jié)點到優(yōu)勝者節(jié)點N6的模式間距離也等于3。
另一方面,在其節(jié)點不具有如圖7所示的聽覺SOM的鏈接的聽覺SOM中,每個節(jié)點和優(yōu)勝者節(jié)點之間的模式間距d基于每個節(jié)點與作為新時序數(shù)據(jù)提供的聲學參數(shù)序列的相似性順序來定義,即通過對應(yīng)于每個節(jié)點與提供的新聲學參數(shù)序列的相似性順序的值提供模式間距d。這樣,具有最高分數(shù)的節(jié)點(即優(yōu)勝者節(jié)點本身)和優(yōu)勝者節(jié)點之間的模式間距d為0,具有第二最高分數(shù)的節(jié)點和優(yōu)勝者節(jié)點之間的模式間距d為1。類似地,具有第k最高分數(shù)的節(jié)點和優(yōu)勝者節(jié)點之間的模式間距d為k-1。
注意在聽覺SOM上的每個節(jié)點和優(yōu)勝者節(jié)點之間的模式間距d的定義與T.Kohonen為定義SOM上的距離或Neural-Gas算法中的距離所采用的定義相同。
表示確定權(quán)重α在模式間距d上的依賴程度的距離-權(quán)重曲線,諸如圖9所示的,可以通過等式(1)提供。
α=GγdΔ]]>其中,當使用SMA(Soft-Max Adaptation最軟修正)作為修改聽覺SOM的方法時,G是表示優(yōu)勝者節(jié)點的確定權(quán)重的常量,γ是表示衰減常量的常量,范圍為0<γ<1,和Δ是用于調(diào)整鄰近優(yōu)勝者節(jié)點的節(jié)點(即具有到優(yōu)勝者節(jié)點很小的模式間距d的節(jié)點)的修改權(quán)重α的變量。
當使用SMA修改包括有多個元素(諸如節(jié)點)的SOM(諸如聽覺SOM)時,不僅修改與新的輸入有最小距離的元素(不僅修改具有最高分數(shù)的元素)還修改位于相當短距離范圍內(nèi)的元件。眾所周知,當僅有一個靠近新的輸入的元素被通過使用WTA(Winner-Take-All優(yōu)勝者帶走全部)方法進行修改時,就會出現(xiàn)陷入局部解決的問題,而SMA能避免這個問題。
當確定為優(yōu)勝者節(jié)點的一個節(jié)點的模式間距為0時,而根據(jù)到優(yōu)勝者節(jié)點的距離或相似性順序,其它節(jié)點的模式間距離為1、2、3等,如果等式(1)中G=8,γ=0.5,Δ=1,則優(yōu)勝者節(jié)點的確定權(quán)重α為8(=G)。類似地,對于其它節(jié)點,確定權(quán)重α為4、2、1等,因此確定權(quán)重α隨著到優(yōu)勝者節(jié)點的距離或與優(yōu)勝者節(jié)點的相似性順序的增加而減少。
當?shù)仁?1)中的衰減系數(shù)Δ很大時,確定權(quán)重α隨著模式間距d的改變逐漸地改變。相反,當衰減系數(shù)Δ接近于0時,確定權(quán)重α隨著模式間距d的改變極大地改變。
因此,如果在逐漸將衰減系數(shù)Δ從1減少到0時調(diào)整衰減系數(shù)Δ,那么確定權(quán)重α的變化隨著模式間距d的變化而變得更大,并且確定權(quán)重α隨著模式間距d的增加而減少。當衰減系數(shù)Δ變得接近于0時,不是優(yōu)勝者節(jié)點的其它節(jié)點的確定權(quán)重α變得幾乎等于0。這樣,實質(zhì)上以與使用上述WTA方法的情況相同的方式來修改聽覺SOM。
在使用SMA方法修改聽覺SOM的情況中,通過以上述方式調(diào)整衰減系數(shù)Δ可以調(diào)整優(yōu)勝者節(jié)點的鄰近區(qū)域內(nèi)的節(jié)點的確定權(quán)重α。
衰減系數(shù)Δ可以在開始修改(學習)聽覺SOM時設(shè)置為一個很大的值,衰減系數(shù)Δ可以隨著時間的流逝而減少,即隨著時間數(shù)目的增大執(zhí)行修改。這樣,在最初修改聽覺SOM時,每個節(jié)點的確定權(quán)重α根據(jù)距離-權(quán)重曲線來確定,其中距離-權(quán)重曲線的值表示確定權(quán)重α隨著模式間距d的改變而改變。隨著修改(學習)處理的進行,距離-權(quán)重曲線具有一個確定權(quán)重α的變化與模式間距d的變化的更大比率,聽覺SOM的每個節(jié)點的確定權(quán)重α根據(jù)距離-權(quán)重曲線來確定,其中在距離-權(quán)重曲線中,確定權(quán)重α的變化與模式間距d的變化的比率是增加的。
即不考慮修改(學習)處理的進行,執(zhí)行優(yōu)勝者節(jié)點的修改以便于特征提取單元2提供的時序數(shù)據(jù)形式的新聲學參數(shù)序列具有很大的作用。另一方面,執(zhí)行不是優(yōu)勝者節(jié)點的節(jié)點的修改以便于在開始修改(學習)處理時新聲學參數(shù)序列在關(guān)于優(yōu)勝者節(jié)點的模式間距(d)的大范圍內(nèi)對節(jié)點的修改具有很大的影響。隨著修改(學習)處理的進行,執(zhí)行不是優(yōu)勝者節(jié)點的節(jié)點的修改以便于新聲學參數(shù)序列在關(guān)于優(yōu)勝者節(jié)點的模式間距(d)的下降范圍內(nèi)對節(jié)點的修改具有很大的影響。
圖8所示的修改權(quán)重確定單元43以上述方式確定聽覺SOM的每個節(jié)點的確定權(quán)重α,學習數(shù)據(jù)修改單元44根據(jù)所確定的確定權(quán)重α為每個節(jié)點修改學習數(shù)據(jù)存儲單元22中存儲的學習數(shù)據(jù)。
現(xiàn)在,參考圖10,以下描述為每個節(jié)點修改學習數(shù)據(jù)存儲單元22中存儲的學習數(shù)據(jù)的方法。
在下面的討論中,假定與節(jié)點Ni相關(guān)的學習數(shù)據(jù)已經(jīng)存儲到學習數(shù)據(jù)存儲單元22中,節(jié)點Ni的時序模式模型21已經(jīng)正在使用學習數(shù)據(jù)存儲單元22中存儲的現(xiàn)有學習數(shù)據(jù)進行學習。
如上所述,學習數(shù)據(jù)修改單元44將學習數(shù)據(jù)存儲單元22中存儲的與節(jié)點Ni相關(guān)的現(xiàn)有的學習數(shù)據(jù)(下文中,這樣的學習數(shù)據(jù)將被簡單的稱為舊學習數(shù)據(jù))與特征提取單元2提供的時序數(shù)據(jù)形式的新聲學參數(shù)序列以一個比率進行混合,其中所述的比率是由修改權(quán)重確定單元43根據(jù)節(jié)點Ni專用的確定權(quán)重α來確定的,學習數(shù)據(jù)修改單元44將該結(jié)果作為新學習數(shù)據(jù)存儲到學習數(shù)據(jù)存儲單元22中。因此,使用新學習數(shù)據(jù)更新了學習數(shù)據(jù)存儲單元22中存儲的數(shù)據(jù)內(nèi)容。
也就是說,學習數(shù)據(jù)修改單元44通過將舊學習數(shù)據(jù)與提供的時序數(shù)據(jù)形式的新聲學參數(shù)序列以根據(jù)確定權(quán)重α確定的比率進行混合產(chǎn)生新學習數(shù)據(jù)。
如果新聲學參數(shù)序列和舊學習數(shù)據(jù)以1∶0的比率進行混合,那么作為結(jié)果的新學習數(shù)據(jù)與新聲學參數(shù)序列相同。相反,如果新聲學參數(shù)序列和舊學習數(shù)據(jù)以0∶1的比率進行混合,那么作為結(jié)果的新學習數(shù)據(jù)與舊學習數(shù)據(jù)相同。當使用新學習數(shù)據(jù)修改與節(jié)點Ni相關(guān)的時序模式模型21(圖5)時,新聲學參數(shù)序列對時序模式模型21的修改的影響可以通過改變新聲學參數(shù)序列和舊學習數(shù)據(jù)的混合比率而改變。
對于節(jié)點Ni,新聲學參數(shù)序列和舊學習數(shù)據(jù)的混合比率例如是根據(jù)確定權(quán)重α確定的,因此新聲學參數(shù)序列和舊學習數(shù)據(jù)的混合比率隨著確定權(quán)重α確定的增大而增大。
更準確地說,為了節(jié)點Ni的學習,特定數(shù)量的時序數(shù)據(jù)形式的聲學參數(shù)序列(學習數(shù)據(jù))存儲到學習數(shù)據(jù)存儲單元22中。下文中,特定數(shù)量的聲學參數(shù)序列以H來標記。這樣,總是使用H個學習數(shù)據(jù)(時序數(shù)據(jù)形式的H個聲學參數(shù)序列)來執(zhí)行與節(jié)點Ni相關(guān)的時序模式模型21的學習。
在特定數(shù)量(H)的學習數(shù)據(jù)總是存在于學習數(shù)據(jù)存儲單元22的情況中,需要通過混合舊數(shù)據(jù)和新聲學參數(shù)序列來產(chǎn)生與H一樣多的新學習數(shù)據(jù)。將新聲學參數(shù)序列和舊學習數(shù)據(jù)以對應(yīng)于節(jié)點Ni專用的確定權(quán)重α的比率進行混合的方法之一是將新聲學參數(shù)序列和舊學習數(shù)據(jù)以α∶H-α的比率進行混合。
將新聲學參數(shù)序列和舊學習數(shù)據(jù)以α∶H-α的比率進行混合的具體方法是通過把α個新聲學參數(shù)序列增加到整個H個舊學習數(shù)據(jù)的H-α個舊學習數(shù)據(jù)中產(chǎn)生H個新數(shù)據(jù),如圖10所示。
更準確地說,如果學習數(shù)據(jù)存儲單元22中存儲的時序數(shù)據(jù)形式的學習數(shù)據(jù)的數(shù)量H,例如是100,節(jié)點Ni的確定權(quán)重α例如是8,通過將8個新聲學參數(shù)序列加到整個100個舊學習數(shù)據(jù)中的92個舊學習數(shù)據(jù),學習數(shù)據(jù)存儲單元22中存儲的數(shù)據(jù)內(nèi)容改變?yōu)?00個新學習數(shù)據(jù)。
把新α個聲學參數(shù)序列增加到整個H個舊學習數(shù)據(jù)的H-α個舊學習數(shù)據(jù)中的方法之一是在已經(jīng)獲得所有的新α個聲學參數(shù)序列時執(zhí)行附加操作。但是,這種方法中,不可能在每次獲得一個新聲學參數(shù)序列時更新學習數(shù)據(jù)存儲單元22中存儲的數(shù)據(jù)內(nèi)容。
在本實施例中,為了避免上述問題,在每次獲得一個新聲學參數(shù)序列(例如聲音持續(xù)時間中的一個聲學參數(shù)序列)時通過把新α個聲學參數(shù)序列增加到H-α個舊學習數(shù)據(jù)來更新學習數(shù)據(jù)存儲單元22中存儲的數(shù)據(jù)內(nèi)容。更準確地說,當提供一個新聲學參數(shù)序列時,通過復(fù)制提供的一個新聲學參數(shù)序列來產(chǎn)生新α個聲學參數(shù)序列,將新的α個聲學參數(shù)序列和通過將最舊的α個學習數(shù)據(jù)的從整個H個舊學習數(shù)據(jù)中移除而獲得的H-α個舊學習數(shù)據(jù)相加,從而更新了學習數(shù)據(jù)存儲單元22中存儲的數(shù)據(jù)內(nèi)容。這種方法中,每次獲得一個新聲學參數(shù)序列時,則更新在學習數(shù)據(jù)存儲單元22中存儲的數(shù)據(jù)內(nèi)容。
通過以上述方式更新學習數(shù)據(jù)存儲單元22中存儲的數(shù)據(jù)內(nèi)容,最新的H個時序數(shù)據(jù)(聲學參數(shù)序列)總是存儲在學習數(shù)據(jù)存儲單元22中,其中根據(jù)確定權(quán)重α調(diào)整新聲學參數(shù)序列與整個數(shù)量的學習數(shù)據(jù)的比率。
現(xiàn)在,參考圖11所示的流程圖,下面描述圖8所示的學習單元3執(zhí)行的聽覺SOM方面的學習(修改)處理。
如果學習單元3從特征提取單元2中接收作為新時序數(shù)據(jù)的聲學參數(shù)序列,學習單元3開始學習處理以修改存儲單元4中存儲的聽覺SOM。
也就是說,在學習單元3(圖8)中,在步驟S1,分數(shù)計算單元41計算表示存儲單元4中存儲的聽覺SOM的每個節(jié)點與特征提取單元2提供的新聲學參數(shù)序列的相似性的分數(shù)。
更準確地說,當如圖5所示的HMM用作每個節(jié)點的時序模式模型21時,觀察到的新聲學參數(shù)序列的對數(shù)似然性被確定為來自HMM的分數(shù)。例如可以使用維特比(Viterbi)算法來計算對數(shù)似然性。
如果已經(jīng)為聽覺SOM的所有節(jié)點計算了與新聲學參數(shù)序列相關(guān)的分數(shù),分數(shù)計算單元41向優(yōu)勝者節(jié)點確定單元42提供每個節(jié)點的分數(shù)。此后,處理從步驟S1進行到步驟S2。
在步驟S2中,優(yōu)勝者節(jié)點確定單元42從聽覺SOM的所有節(jié)點中選擇一個具有通過分數(shù)計算單元41計算的最高分數(shù)的節(jié)點,優(yōu)勝者節(jié)點確定單元42將所選擇的節(jié)點作為優(yōu)勝者節(jié)點。優(yōu)勝者節(jié)點確定單元42向修改權(quán)重確定單元43提供一個作為表示優(yōu)勝者節(jié)點的信息的節(jié)點標記。此后,處理從步驟S2進行到步驟S3。
在步驟S3中,例如通過使用作為參考的從優(yōu)勝者節(jié)點確定單元42提供的節(jié)點標記表示的優(yōu)勝者節(jié)點,修改權(quán)重確定單元43確定用于聽覺SOM的所有節(jié)點的確定權(quán)重。
更準確地說,如上參考圖9進行的描述,修改權(quán)重確定單元43根據(jù)等式(1)所表示的距離-權(quán)重曲線確定聽覺SOM的所有節(jié)點的確定權(quán)重,其中隨著修改(學習)聽覺SOM的進行,確定權(quán)重α的改變對于模式間距d的改變變得更為敏感,并且修改權(quán)重確定單元43向?qū)W習數(shù)據(jù)修改單元44提供每個節(jié)點的作為結(jié)果的確定權(quán)重α。
接著處理從步驟S3進行到步驟S4。在步驟S4,學習數(shù)據(jù)修改單元44根據(jù)修改權(quán)重確定單元43確定的確定權(quán)重為聽覺SOM的每個節(jié)點修改學習數(shù)據(jù)存儲單元22中存儲的學習數(shù)據(jù)。更準確地說,學習數(shù)據(jù)修改單元44通過將特征提取單元2提供的新聲學參數(shù)序列和學習數(shù)據(jù)存儲單元22中存儲的節(jié)點的舊學習數(shù)據(jù)以α∶H-α的比率進行混合來獲得H段學習數(shù)據(jù),其中每個α是與每個節(jié)點相關(guān)的確定權(quán)重,如上參考圖10的描述。因此,通過H段的新學習數(shù)據(jù)來修改學習數(shù)據(jù)存儲單元22中存儲的數(shù)據(jù)內(nèi)容。
如果學習數(shù)據(jù)修改單元44為聽覺SOM的所有節(jié)點修改學習數(shù)據(jù)存儲單元22(圖5)中的內(nèi)容,學習數(shù)據(jù)修改單元44向模型學習單元45提供完成通知以通知修改完成。
如果模型學習單元45從學習數(shù)據(jù)修改單元44接收到完成通知,處理從步驟S4進行到步驟S5。在步驟S5,模型學習單元45修改聽覺SOM的參數(shù)(以時序模式存儲網(wǎng)絡(luò)形式的每個聽覺SOM節(jié)點的時序模式模型21(圖5)的參數(shù)(下文中簡稱為模型參數(shù)))。如果完成了所有節(jié)點的模型參數(shù)的修改,則結(jié)束學習處理。
也就是說,模型學習單元45通過使用由學習數(shù)據(jù)修改單元44修改并且存儲在學習數(shù)據(jù)存儲單元22中的新學習數(shù)據(jù)對時序模式模型21執(zhí)行學習來修改聽覺SOM的每個節(jié)點的時序模式模型21。
更準確地說,例如,當使用HMM作為每個節(jié)點的時序模式模型21時,使用存儲在學習數(shù)據(jù)存儲單元22中的新學習數(shù)據(jù)為每個節(jié)點執(zhí)行HMM的學習。在這個學習處理中,例如,使用HMM的當前狀態(tài)轉(zhuǎn)換幾率和輸出幾率密度函數(shù)作為初始值以及使用新學習數(shù)據(jù)通過Baum-Welch方法確定新狀態(tài)轉(zhuǎn)換幾率和新輸出幾率密度函數(shù)。根據(jù)新狀態(tài)轉(zhuǎn)換幾率和新輸出幾率密度函數(shù),聽覺SOM的模型參數(shù),即HMM的狀態(tài)轉(zhuǎn)換幾率和輸出幾率密度函數(shù)(更準確地說,平均矢量、協(xié)方差矩陣等)被修改。
在圖11所示的學習處理中,當一個聲學參數(shù)序列作為新時序數(shù)據(jù)被獲得時,根據(jù)聽覺SOM的節(jié)點確定該新聲學參數(shù)序列的優(yōu)勝者節(jié)點。因此,使用優(yōu)勝者節(jié)點作為參考,為聽覺SOM的每個節(jié)點確定一個確定權(quán)重。此后,根據(jù)確定權(quán)重,修改聽覺SOM的每個節(jié)點的時序模式模型21(圖5)的模型參數(shù)(本實例中HMM的狀態(tài)轉(zhuǎn)換幾率和輸出幾率密度函數(shù))。
也就是說,在圖11所示的學習處理中,為一個新聲學參數(shù)序列執(zhí)行一次聽覺SOM的節(jié)點的模型參數(shù)的修改,并且每次獲得一個新聲學參數(shù)序列時以類似的方式執(zhí)行節(jié)點的模型參數(shù)的修改。因此,以自組織方式執(zhí)行學習。
通過執(zhí)行有效的學習,聽覺SOM的每個節(jié)點的時序模式模型21獲得特定的時序模式。聽覺SOM的時序模式的總數(shù)量等于聽覺SOM的節(jié)點的總數(shù)量。因此,例如,當聽覺SOM的節(jié)點的總數(shù)量等于100時,為與100個同樣多的時序模式執(zhí)行學習。
圖12示出了圖1所示的識別單元5的結(jié)構(gòu)的實例。
如上參考圖1的描述,聲學參數(shù)序列作為新時序數(shù)據(jù)從特征提取單元2提供給識別單元5,該新聲學參數(shù)序列提供給分數(shù)計算單元51。
分數(shù)計算單元51計算表示存儲單元4中存儲的聽覺SOM的每個節(jié)點與特征提取單元2提供的新聲學參數(shù)序列的相似的分數(shù),并且分數(shù)計算單元51將所計算的分數(shù)提供給優(yōu)勝者節(jié)點確定單元52。更準確地說,例如,當諸如圖5所示的HMM用作每個節(jié)點的時序模式模型21時,分數(shù)計算單元51根據(jù)表示每個節(jié)點的時序模式模型21的HMM確定觀察到的特征提取單元2提供的新聲學參數(shù)序列的似然性,分數(shù)計算單元51將所計算的似然性作為每個節(jié)點的分數(shù)提供給優(yōu)勝者節(jié)點確定單元52。
如同學習單元3(圖8)的優(yōu)勝者節(jié)點確定單元42,優(yōu)勝者節(jié)點確定單元52從存儲單元4中存儲的聽覺SOM的節(jié)點中選擇出一個與特征提取單元2提供的新聲學參數(shù)序列具有最大相似的節(jié)點,優(yōu)勝者節(jié)點確定單元52確定所選擇的節(jié)點為優(yōu)勝者節(jié)點。
也就是說,優(yōu)勝者節(jié)點確定單元52從存儲單元4中存儲的聽覺SOM的節(jié)點中檢測到一個具有分數(shù)計算單元51計算的最高分數(shù)的節(jié)點,和優(yōu)勝者節(jié)點確定單元52確定所檢測到的節(jié)點作為優(yōu)勝者節(jié)點。優(yōu)勝者節(jié)點確定單元52輸出一個節(jié)點標記作為表示為特征提取單元2提供的新聲學參數(shù)序列確定的優(yōu)勝者節(jié)點的學習的信息,或確定為語音識別的結(jié)果,觀察單元1從該結(jié)果中提取和觀察新聲學參數(shù)序列。
注意識別單元5的分數(shù)計算單元51和學習單元3(圖8)的分數(shù)計算單元41中的一個可以用于執(zhí)行識別單元5和學習單元3中需要的計算。注意識別單元5的優(yōu)勝者節(jié)點確定單元52和學習單元3(圖8)的優(yōu)勝者節(jié)點確定單元42中的一個既可以用于識別單元5的確定單元又可以用于學習單元3的確定單元。因此,通過使得學習單元3的分數(shù)計算單元41運行的與識別單元5的分數(shù)計算單元51相同以及優(yōu)勝者節(jié)點確定單元42運行的與識別單元5的優(yōu)勝者節(jié)點確定單元51相同,識別單元5可以構(gòu)造為學習單元3的一部分。
現(xiàn)在,參考圖13所示的流程圖,給出關(guān)于圖12所示的識別單元5執(zhí)行的識別處理的解釋來識別一個語音,其中從該語音中,特征提取單元2提取出一個聲學參數(shù)序列。
如果識別單元5從特征提取單元2接收到一個作為新時序數(shù)據(jù)的聲學參數(shù)序列,識別單元5開始一個識別處理以使用存儲單元4中存儲的聽覺SOM識別出一個語音,從該語音中,特征提取單元2提取出一個聲學參數(shù)序列(即觀察單元1觀察到的語音)。
也就是說,在識別單元5(圖13)中,在步驟21,分數(shù)計算單元51計算表示存儲單元4中存儲的每個聽覺SOM節(jié)點與特征提取單元2提供的新聲學參數(shù)序列的相似性的分數(shù)。
更準確地說,例如,當HMM用作每個節(jié)點的時序模式模型21(圖5)時,觀察到的新聲學參數(shù)序列的對數(shù)似然性被確定為來自HMM的分數(shù)。
如果已經(jīng)為聽覺SOM的所有節(jié)點計算了與新聲學參數(shù)序列相關(guān)的分數(shù),分數(shù)計算單元51向優(yōu)勝者節(jié)點確定單元52提供每個節(jié)點的分數(shù)。此后,處理從步驟S21進行到步驟S22。
在步驟S22中,優(yōu)勝者節(jié)點確定單元52從聽覺SOM的節(jié)點中選擇一個具有最高的由分數(shù)計算單元51計算的分數(shù)的節(jié)點,并將所選擇的節(jié)點作為優(yōu)勝者節(jié)點。于是處理從步驟S22進行到步驟S23。在步驟S23中,優(yōu)勝者節(jié)點確定單元52將一個表示優(yōu)勝者節(jié)點的節(jié)點標記作為語音識別結(jié)果提供給產(chǎn)生單元6。因此識別處理完成。
使用聽覺SOM的上述識別處理允許它識別具有很高的由聽覺SOM節(jié)點的數(shù)目確定的分辨率的語音。
圖14示出了圖1所示的產(chǎn)生單元6的結(jié)構(gòu)的實例。
如果表示存儲單元4中存儲的聽覺SOM節(jié)點的優(yōu)勝者節(jié)點的節(jié)點標記作為語音識別結(jié)果從識別單元5提供給產(chǎn)生單元6,該節(jié)點標記被輸入到在產(chǎn)生單元6中的產(chǎn)生節(jié)點確定單元61。
產(chǎn)生節(jié)點確定單元61在存儲單元4中存儲的連接網(wǎng)絡(luò)中搜索一個具有與聽覺SOM的優(yōu)勝者節(jié)點最高連接強度的節(jié)點,其中的優(yōu)勝者節(jié)點是由識別單元5提供的節(jié)點標記表示的,即產(chǎn)生節(jié)點確定單元61搜索一個具有與優(yōu)勝者節(jié)點最大連接權(quán)重的節(jié)點。如果產(chǎn)生節(jié)點確定單元61從發(fā)音SOM的節(jié)點中檢測到一個具有與聽覺SOM的優(yōu)勝者節(jié)點的最大連接權(quán)重的節(jié)點,其中的優(yōu)勝者節(jié)點是由識別單元5提供的節(jié)點標記表示的,那么產(chǎn)生節(jié)點確定單元61將所檢測到的節(jié)點作為產(chǎn)生節(jié)點以用于產(chǎn)生發(fā)音參數(shù),并且產(chǎn)生節(jié)點確定單元61將標識產(chǎn)生節(jié)點的節(jié)點標記提供給模型參數(shù)修改單元62。
模型參數(shù)修改單元62從存儲單元4中存儲的發(fā)音SOM的節(jié)點中檢測到通過產(chǎn)生節(jié)點確定單元61提供的節(jié)點標記標識的產(chǎn)生節(jié)點并執(zhí)行修改控制處理以修改產(chǎn)生節(jié)點所產(chǎn)生的聲學參數(shù)序列。
發(fā)音SOM的每個節(jié)點具有諸如圖5所示的時序模式模型21,使用發(fā)音參數(shù)序列通過學習單元7來執(zhí)行與每個發(fā)音SOM節(jié)點相關(guān)的時序模式模型21的學習(修改),從而發(fā)音SOM的每個節(jié)點的時序模式模型21可以產(chǎn)生一個發(fā)音參數(shù)序列,其中發(fā)音參數(shù)序列是一個驅(qū)動驅(qū)動單元8的參數(shù)。
更確切地說,例如,當HMM用作每個節(jié)點的時序模式模型21時,HMM可以產(chǎn)生具有表示觀察到的發(fā)音參數(shù)序列的似然性的最大輸出幾率的發(fā)音參數(shù)序列。
使用HMM產(chǎn)生包括發(fā)音參數(shù)序列的時序數(shù)據(jù)的方法來產(chǎn)生根據(jù)動態(tài)特征值平滑地改變的時序數(shù)據(jù)。這樣一種產(chǎn)生時序數(shù)據(jù)的具體實例在題目為“基于HMM的語音合成的語音參數(shù)產(chǎn)生算法(SPEECH PARAMETER GENERATIONALGORITHMS FOR HMM-BASED SPEECH SYNTHESIS)”(K.Tokuda,T.Yoshimura,T.Masuko,T.Kobayashi,和T.Kitamura,Proc.of ICASSP 2000,第3卷,第1315-1318頁,2000年6月)的技術(shù)論文中公開。
使用HMM產(chǎn)生時序數(shù)據(jù)的另一種方法是基于隨機試驗使用HMM的參數(shù)重復(fù)地產(chǎn)生時序數(shù)據(jù)和使用產(chǎn)生的時序數(shù)據(jù)的平均值。這樣一種產(chǎn)生時序數(shù)據(jù)方法的具體實例公開在,例如“使用連續(xù)的HMM提取和重存時序數(shù)據(jù)的主要幀(Extraction and restore of keyframes of time-series data using acontinuous HMM)”(Inamura等人,Proc.of 2003 ROBOMEC,2P1-3F-C6).
當HMM用作時序模式模型21時,其中的模型參數(shù)是HMM的狀態(tài)轉(zhuǎn)換幾率和輸出幾率密度函數(shù)(更確切地說,其中的平均矢量和協(xié)方差矩陣)??赡芡ㄟ^改變狀態(tài)轉(zhuǎn)換幾率和輸出幾率密度函數(shù)來改變由HMM產(chǎn)生的時序數(shù)據(jù),即HMM的模型參數(shù)。
因此模型參數(shù)修改單元62控制位于下一步的時序數(shù)據(jù)產(chǎn)生單元63以改變與發(fā)音SOM的產(chǎn)生節(jié)點相關(guān)的模型參數(shù)和使用所改變的模型參數(shù)產(chǎn)生時序數(shù)據(jù)形式的發(fā)音參數(shù)序列。更確切地說,模型參數(shù)修改單元62將產(chǎn)生節(jié)點的改變的模型參數(shù)提供給時序數(shù)據(jù)產(chǎn)生單元63并且控制時序數(shù)據(jù)產(chǎn)生單元63以使用產(chǎn)生節(jié)點的改變的模型參數(shù)產(chǎn)生發(fā)音參數(shù)序列。在這個處理中,因為時序數(shù)據(jù)產(chǎn)生單元63使用與產(chǎn)生節(jié)點相關(guān)的改變的模型參數(shù)產(chǎn)生發(fā)音參數(shù),因此在產(chǎn)生節(jié)點產(chǎn)生的發(fā)音參數(shù)序列出現(xiàn)了變化。
注意,通過模型參數(shù)修改單元62改變發(fā)音SOM產(chǎn)生節(jié)點的模型參數(shù)是在控制單元10的控制下進行的。
時序數(shù)據(jù)產(chǎn)生單元63從模型參數(shù)修改單元62提供的產(chǎn)生節(jié)點的時序模式模型21(圖5)的模型參數(shù)中產(chǎn)生發(fā)音參數(shù)序列,時序數(shù)據(jù)產(chǎn)生單元63將所產(chǎn)生的發(fā)音參數(shù)序列提供給學習單元7(圖1)和驅(qū)動單元8。
現(xiàn)在,參考圖15所示的流程圖,下面描述通過圖14所示的產(chǎn)生單元6執(zhí)行的產(chǎn)生發(fā)音參數(shù)序列的產(chǎn)生處理。
如果表示聽覺SOM的優(yōu)勝者節(jié)點的節(jié)點標記作為識別結(jié)果從識別單元5提供給產(chǎn)生單元6,則產(chǎn)生單元6開始產(chǎn)生處理。
也就是說,在步驟S31,產(chǎn)生單元6(圖14)中的產(chǎn)生節(jié)點確定單元61檢測到存儲單元4中存儲的發(fā)音SOM節(jié)點中的一個節(jié)點具有與優(yōu)勝者節(jié)點最大連接權(quán)重,所述的優(yōu)勝者節(jié)點是存儲單元4中存儲的聽覺SOM節(jié)點中的一個并且由識別單元5提供的節(jié)點標記來表示的,產(chǎn)生節(jié)點確定單元61確定所檢測到的節(jié)點作為產(chǎn)生節(jié)點。接著產(chǎn)生節(jié)點確定單元61將表示產(chǎn)生節(jié)點的節(jié)點標記提供給模型參數(shù)修改單元62。此后,處理從步驟S31進行到S32。
在步驟S32,模型參數(shù)修改單元62從存儲單元4中存儲的發(fā)音SOM的節(jié)點中檢測出由產(chǎn)生節(jié)點確定單元61提供的節(jié)點標記所標識的產(chǎn)生節(jié)點,和模型參數(shù)修改單元62從存儲單元4中讀取該產(chǎn)生節(jié)點(更嚴格地說,與產(chǎn)生節(jié)點相關(guān)的時序模式模型21(圖5)的模型參數(shù))。此外,模型參數(shù)修改單元62根據(jù)控制單元10(圖1)提供的命令修改或不修改產(chǎn)生節(jié)點(嚴格來講,與產(chǎn)生節(jié)點相關(guān)的時序模式模型21的模型參數(shù)),和模型參數(shù)修改單元62將結(jié)果的產(chǎn)生節(jié)點提供給時序數(shù)據(jù)產(chǎn)生單元63。此后,處理從步驟S32進行到S33。
在步驟S33,時序數(shù)據(jù)產(chǎn)生單元63根據(jù)模型參數(shù)修改單元62提供的產(chǎn)生節(jié)點(嚴格來講,與產(chǎn)生節(jié)點相關(guān)的時序模式模型21的模型參數(shù))產(chǎn)生發(fā)音參數(shù)序列,和時序數(shù)據(jù)產(chǎn)生單元63將所產(chǎn)生的發(fā)音參數(shù)序列提供給學習單元7(圖1)和驅(qū)動單元8。因此,產(chǎn)生處理完成。
圖16示出了圖1所示的學習單元7的結(jié)構(gòu)的實例。
如果學習單元7從產(chǎn)生單元6(圖1)中接收時序數(shù)據(jù)形式的發(fā)音參數(shù)序列,那么在控制單元10(圖1)的控制下,學習單元7根據(jù)產(chǎn)生單元6提供的發(fā)音參數(shù)序列以自組織方式修改存儲單元4中存儲的時序模式存儲網(wǎng)絡(luò),即連接網(wǎng)絡(luò)的發(fā)音SOM。
更確切地說,分數(shù)計算單元71為存儲單元4中以時序模式存儲網(wǎng)絡(luò)形式存儲的每個發(fā)音SOM節(jié)點確定表示與產(chǎn)生單元6提供的時序數(shù)據(jù)形式的新發(fā)音參數(shù)序列有關(guān)的相似性分數(shù),其方式與圖8所示的分數(shù)計算單元41執(zhí)行的計算相同,并且分數(shù)計算單元71將每個節(jié)點的作為結(jié)果的分數(shù)提供給優(yōu)勝者節(jié)點確定單元72。因此,在諸如圖5所示的HMM用作發(fā)音SOM的每個節(jié)點的時序模式模型21的情況下,分數(shù)計算單元71根據(jù)表示每個節(jié)點的時序模式模型21的HMM確定觀察到的產(chǎn)生單元6提供的新發(fā)音參數(shù)序列的似然性,和分數(shù)計算單元71將所計算的似然性作為節(jié)點的分數(shù)提供給優(yōu)勝者節(jié)點確定單元72和自學習連接權(quán)重修改單元76。
優(yōu)勝者節(jié)點確定單元72從存儲單元4存儲的時序模式存儲網(wǎng)絡(luò)形式的發(fā)音SOM的節(jié)點中檢測出一個具有與產(chǎn)生單元6提供的新發(fā)音參數(shù)序列最相似的節(jié)點,優(yōu)勝者節(jié)點確定單元72將所檢測到的節(jié)點確定為優(yōu)勝者節(jié)點。
也就是說,優(yōu)勝者節(jié)點確定單元72從存儲單元4中存儲的發(fā)音SOM節(jié)點中檢測出一個具有分數(shù)計算單元71計算的最高分數(shù)的節(jié)點,優(yōu)勝者節(jié)點確定單元72確定所檢測到的節(jié)點為優(yōu)勝者節(jié)點。優(yōu)勝者節(jié)點確定單元72將表示優(yōu)勝者節(jié)點的節(jié)點標記提供給修改權(quán)重確定單元73。
修改權(quán)重確定單元73基于以優(yōu)勝者節(jié)點確定單元72提供的節(jié)點標記表示的優(yōu)勝者節(jié)點確定存儲單元4中存儲的每個發(fā)音SOM節(jié)點的確定權(quán)重,其方式與圖8所示的修改權(quán)重確定單元43確定確定權(quán)重的方式相同,和修改權(quán)重確定單元73將每個節(jié)點的結(jié)果的確定權(quán)重提供給學習數(shù)據(jù)修改單元74。
也就是說,修改權(quán)重確定單元73根據(jù)每個節(jié)點和優(yōu)勝者節(jié)點之間的模式間距確定存儲單元4中存儲的發(fā)音SOM的每個節(jié)點(包括優(yōu)勝者節(jié)點)的確定權(quán)重,修改權(quán)重確定單元73將每個節(jié)點的結(jié)果的確定權(quán)重提供給學習數(shù)據(jù)修改單元74。
每個發(fā)音SOM節(jié)點的分數(shù)可以通過修改權(quán)重確定單元73來確定或者分數(shù)計算單元71確定的分數(shù)可以提供給修改權(quán)重確定單元73。
學習數(shù)據(jù)修改單元74為存儲單元4中存儲的每個發(fā)音SOM節(jié)點修改學習數(shù)據(jù)存儲單元22(圖5)中存儲的學習數(shù)據(jù),其方式與圖8所示的學習數(shù)據(jù)修改單元44修改學習數(shù)據(jù)的方式相同。
更確切地說,學習數(shù)據(jù)修改單元74將與學習數(shù)據(jù)存儲單元22中存儲的每個發(fā)音SOM節(jié)點相關(guān)的現(xiàn)有學習數(shù)據(jù)和產(chǎn)生單元6提供的新發(fā)音參數(shù)序列以一個比率進行混合,該比率是根據(jù)與修改權(quán)重確定單元73提供的節(jié)點相關(guān)的確定權(quán)重來確定的,和學習數(shù)據(jù)修改單元74將該結(jié)果作為新學習數(shù)據(jù)存儲到學習數(shù)據(jù)存儲單元22中從而更新學習數(shù)據(jù)存儲單元22中的內(nèi)容。
當學習數(shù)據(jù)修改單元74以上述方式修改了學習數(shù)據(jù)存儲單元22(圖5)中存儲的學習數(shù)據(jù)后,學習數(shù)據(jù)修改單元74將完成通知提供給模型學習單元75以通知修改完成。
如果模型學習單元75從學習數(shù)據(jù)修改單元74接收到完成通知,模型學習單元75通過使用學習數(shù)據(jù)修改單元74修改的并且存儲到學習數(shù)據(jù)存儲單元22(圖5)中的學習數(shù)據(jù),對時序模式模型21執(zhí)行學習來修改存儲單元4存儲的每個發(fā)音SOM節(jié)點的時序模式模型21(更嚴格的講,時序模式模型21的模型參數(shù))。
因此,在模型學習單元75執(zhí)行的修改每個發(fā)音SOM節(jié)點的時序模式模型21的處理中,基于與學習數(shù)據(jù)存儲單元22(圖5)中存儲的每個節(jié)點相關(guān)的學習數(shù)據(jù)(的部分)以及基于產(chǎn)生單元6提供的新發(fā)音參數(shù)序列來執(zhí)行修改。
在獎勵采集單元9(圖1)不提供獎勵的情況下,自學習連接權(quán)重修改單元76根據(jù)分數(shù)計算單元71提供的關(guān)于產(chǎn)生單元6提供的新發(fā)音參數(shù)序列的分數(shù),為每個發(fā)音SOM節(jié)點修改存儲單元4中存儲的連接網(wǎng)絡(luò)(表示聽覺SOM的節(jié)點和發(fā)音SOM的節(jié)點之間的連接強度)的連接權(quán)重。另一方面,如果獎勵采集單元9提供了獎勵,自學習連接權(quán)重修改單元76不激活連接權(quán)重的修改。
如果獎勵采集單元9提供了獎勵,有指導(dǎo)學習連接權(quán)重修改單元77使用所接收的獎勵作為訓(xùn)練信號和根據(jù)該訓(xùn)練信號修改存儲單元4中存儲的連接權(quán)重(表示聽覺SOM的節(jié)點和發(fā)音SOM的節(jié)點之間的連接強度)。另一方面,如果獎勵采集單元9提供了獎勵,有指導(dǎo)學習連接權(quán)重修改單元77不激活連接權(quán)重的修改。
現(xiàn)在,參考圖17的流程圖,下面描述學習單元7執(zhí)行的學習(修改)發(fā)音SOM和連接權(quán)重的學習處理。
如果產(chǎn)生單元6提供了一個時序數(shù)據(jù)形式的新發(fā)音參數(shù)序列并且接收到來自控制單元10的一個使用新發(fā)音參數(shù)序列執(zhí)行學習的命令,學習單元7開始學習處理以修改存儲單元4中存儲的發(fā)音SOM和連接權(quán)重。
也就是說,在學習單元7(圖16)中,分數(shù)計算單元71計算表示存儲單元4中存儲的每個發(fā)音SOM節(jié)點與特征提取單元2提供的新發(fā)音參數(shù)序列的相似性的分數(shù)。
更準確地說,例如,當HMM用作發(fā)音SOM的每個節(jié)點的時序模式模型21時,根據(jù)HMM使用例如維特比(Viterbi)算法來確定觀察到的新聲學參數(shù)序列的對數(shù)似然性,和作為結(jié)果的對數(shù)似然性可為每個發(fā)音SOM節(jié)點用作產(chǎn)生單元6提供的新發(fā)音參數(shù)序列方面的分數(shù)。
如果已經(jīng)為發(fā)音SOM的所有節(jié)點計算了與新聲學參數(shù)序列相關(guān)的分數(shù),分數(shù)計算單元71向優(yōu)勝者節(jié)點確定單元72和自學習連接權(quán)重修改單元76提供每個節(jié)點的分數(shù)。此后,處理從步驟S41進行到步驟S42。
在步驟S42中,優(yōu)勝者節(jié)點確定單元72從發(fā)音SOM的節(jié)點中檢測出一個具有通過分數(shù)計算單元71計算的最高分數(shù)的節(jié)點,并確定所檢測出的節(jié)點作為優(yōu)勝者節(jié)點。優(yōu)勝者節(jié)點確定單元72向修改權(quán)重確定單元73提供一個表示優(yōu)勝者節(jié)點的節(jié)點標記。此后,處理從步驟S42進行到步驟S43。
在步驟S43中,通過使用優(yōu)勝者節(jié)點確定單元72提供的用節(jié)點標記表示的優(yōu)勝者節(jié)點作為參考,修改權(quán)重確定單元73確定發(fā)音SOM的每個節(jié)點的確定權(quán)重。
如上參考圖9進行的描述,修改權(quán)重確定單元73根據(jù)等式(1)所表示的距離-權(quán)重曲線確定每個發(fā)音SOM節(jié)點的確定權(quán)重α,該曲線隨著修改(學習)發(fā)音SOM的進行,確定權(quán)重α的改變對于模式間距d的改變變得更為敏感,并且修改權(quán)重確定單元73向?qū)W習數(shù)據(jù)修改單元44提供每個節(jié)點的作為結(jié)果的確定權(quán)重。
接著處理從步驟S43進行到步驟S44。在步驟S44,學習數(shù)據(jù)修改單元74根據(jù)修改權(quán)重確定單元73確定的確定權(quán)重為每個發(fā)音SOM節(jié)點修改學習數(shù)據(jù)存儲單元22(圖5)中存儲的學習數(shù)據(jù)。更準確地說,學習數(shù)據(jù)修改單元74通過將產(chǎn)生單元6提供的新發(fā)音參數(shù)序列和學習數(shù)據(jù)存儲單元22中存儲的發(fā)音SOM的節(jié)點的舊學習數(shù)據(jù)以α∶H-α的比率進行混合來獲得H段新學習數(shù)據(jù),其中α是與每個節(jié)點相關(guān)的確定權(quán)重,如上參考圖10的描述。因此,通過H片新學習數(shù)據(jù)來修改學習數(shù)據(jù)存儲單元22中存儲的數(shù)據(jù)內(nèi)容。
如果學習數(shù)據(jù)修改單元74為發(fā)音SOM的所有節(jié)點修改學習數(shù)據(jù)存儲單元22(圖5)中的內(nèi)容,學習數(shù)據(jù)修改單元74向模型學習單元75提供完成通知以通知修改完成。
如果模型學習單元75從學習數(shù)據(jù)修改單元74接收到完成通知,處理從步驟S44進行到步驟S45。在步驟S5,模型學習單元75更新與發(fā)音SOM相關(guān)的模型參數(shù)。
也就是說,模型學習單元75通過使用由學習數(shù)據(jù)修改單元74修改并且存儲在學習數(shù)據(jù)存儲單元22中的新學習數(shù)據(jù)對時序模式模型21執(zhí)行學習以便修改發(fā)音SOM的每個節(jié)點的時序模式模型21。
更準確地說,例如,當HMM用作發(fā)音SOM的每個節(jié)點的時序模式模型21時,使用存儲在學習數(shù)據(jù)存儲單元22中的新學習數(shù)據(jù)為每個節(jié)點執(zhí)行HMM的學習。在這個學習處理中,例如,使用HMM的當前狀態(tài)轉(zhuǎn)換幾率和輸出的幾率密度函數(shù)(模型參數(shù))作為初始值以及使用新學習數(shù)據(jù)通過Baum-Welch方法確定新狀態(tài)轉(zhuǎn)換幾率和新輸出幾率密度函數(shù)。根據(jù)新狀態(tài)轉(zhuǎn)換幾率和新輸出幾率密度函數(shù),發(fā)音SOM的模型參數(shù),即HMM的狀態(tài)轉(zhuǎn)換幾率和輸出幾率密度函數(shù)(更準確地說,平均矢量、協(xié)方差矩陣等)被修改。
接著處理從步驟S45進行到步驟S46。在步驟S46中,自學習連接權(quán)重修改單元76和有指導(dǎo)學習連接權(quán)重修改單元77確定獎勵采集單元9是否已經(jīng)提供了獎勵。
如果在步驟S46確定沒有提供獎勵,則處理進行到步驟S47。在步驟S47中,按照在產(chǎn)生單元6為發(fā)音SOM的各個節(jié)點提供的新發(fā)音參數(shù)序列,自學習連接權(quán)重修改單元76根據(jù)分數(shù)計算單元71在步驟S41提供的分數(shù)修改存儲單元4中存儲的連接網(wǎng)絡(luò)的連接權(quán)重(下文中,該修改處理將稱為自學習連接權(quán)重的修改)。如果步驟S47完成了,則學習處理結(jié)束。
另一方面,如果在步驟S46確定已經(jīng)提供了獎勵,則處理進行到步驟S48。在步驟S48中,有指導(dǎo)學習連接權(quán)重修改單元77根據(jù)獎勵采集單元9在步驟S46提供的獎勵修改存儲單元4中存儲的連接權(quán)重(下文中,該修改處理稱為有指導(dǎo)學習連接權(quán)重的修改)。在完成步驟S48之后,學習處理結(jié)束。
現(xiàn)在,參考圖18所示的流程圖,下面描述圖1所示的信息處理裝置的操作。在下面的討論中,假定給出了例如以HMM形式的與每個發(fā)音SOM節(jié)點相關(guān)的時序模式模型21(圖5)。
首先,在步驟S101中,控制單元10初始化存儲單元4中存儲的連接網(wǎng)絡(luò)。此后,處理繼續(xù)到步驟S102。
更準確地說,控制單元10設(shè)置合適的值(如隨機數(shù))作為與存儲單元4中存儲的連接網(wǎng)絡(luò)的聽覺SOM和發(fā)音SOM的每個節(jié)點相關(guān)的HMM的模型參數(shù),并且控制單元10還設(shè)置合適的值(如隨機數(shù))作為聽覺SOM和發(fā)音SOM之間的連接權(quán)重。
在步驟S102,如果用戶發(fā)出話音,觀察單元1檢測到一個聲音持續(xù)時間并將檢測到的聲音持續(xù)時間中的語音/聲音提供給特征提取單元2。此后,處理從步驟S102進行到步驟S103。
在步驟S103,特征提取單元2從觀察單元1提供的語音/聲音中提取聲學參數(shù)和將所提取的時序數(shù)據(jù)形式的聲學參數(shù)序列提供給學習單元3和識別單元5。此后,處理繼續(xù)到步驟S104。
在步驟S104,識別單元5使用特征提取單元2提供的聲學參數(shù)序列,即用戶以和上面參考圖13描述的方式相同的方式發(fā)出的話音的聲學參數(shù)序列,執(zhí)行識別處理,識別單元5將表示聽覺SOM的優(yōu)勝者節(jié)點的節(jié)點標記作為用戶發(fā)出的話音的識別結(jié)果提供給產(chǎn)生單元6和控制單元10。此后,處理繼續(xù)到步驟S105。
下文中,為用戶發(fā)出的話音獲得的聽覺SOM的優(yōu)勝者節(jié)點將被稱為話音優(yōu)勝者節(jié)點。
在步驟S105,學習單元3使用特征提取單元2提供的聲學參數(shù)序列,即用戶以上面參考圖11描述的方式相同的方式發(fā)出的話音的聲學參數(shù)序列,執(zhí)行學習處理。結(jié)果,存儲單元4中存儲的聽覺SOM被更新。此后,處理繼續(xù)到步驟S106。
在步驟S106到S109,產(chǎn)生單元6執(zhí)行上述參考圖15描述的產(chǎn)生處理。
也就是說,在步驟S106,如圖15所示的步驟S31,產(chǎn)生單元6(圖14)中的產(chǎn)生節(jié)點確定單元61檢測到存儲單元4中存儲的發(fā)音SOM的節(jié)點中的一個節(jié)點具有與話音優(yōu)勝者節(jié)點最大連接權(quán)重,所述的話音優(yōu)勝者節(jié)點是存儲單元4中存儲的聽覺SOM的節(jié)點中的一個并且由識別單元5在緊接前面的步驟S104中提供的節(jié)點標記來表示的,產(chǎn)生節(jié)點確定單元61確定所檢測到的節(jié)點作為產(chǎn)生節(jié)點。接著產(chǎn)生節(jié)點確定單元61將表示產(chǎn)生節(jié)點的節(jié)點標記提供給模型參數(shù)修改單元62。此后,處理從步驟S106進行到S107。
在步驟S107,如同圖15所示的步驟S32,產(chǎn)生單元6(圖14)中的模型參數(shù)修改單元62從存儲單元4中存儲的發(fā)音SOM的節(jié)點中檢測出由產(chǎn)生節(jié)點確定單元61提供的節(jié)點標記所標識的產(chǎn)生節(jié)點,和模型參數(shù)修改單元62從存儲單元4中讀取該產(chǎn)生節(jié)點(更確切地說,與產(chǎn)生節(jié)點相關(guān)的時序模式模型21(圖5)的模型參數(shù))。
此后,處理從步驟S107進行到步驟S108。在步驟S108,根據(jù)控制單元10提供的命令,模型參數(shù)修改單元62修改或不修改與從存儲單元4中讀取的產(chǎn)生節(jié)點相關(guān)的時序模式模型21的模型參數(shù)(下文中,簡單稱為產(chǎn)生節(jié)點的模型參數(shù)),和模型參數(shù)修改單元62將產(chǎn)生節(jié)點的作為結(jié)果的模型參數(shù)提供給時序數(shù)據(jù)產(chǎn)生單元63。此后,處理繼續(xù)到步驟S109。
從S108到S114的步驟形成一個循環(huán),在由于用戶發(fā)出的話音而獲得的一個聲音持續(xù)時間內(nèi)為語音/話音數(shù)據(jù)至少執(zhí)行一次該循環(huán)。當在用戶發(fā)出的話音的一個聲音持續(xù)時間內(nèi)為語音/話音數(shù)據(jù)第一次執(zhí)行步驟S108時,控制單元10控制模型參數(shù)修改單元62以便于產(chǎn)生節(jié)點的模型參數(shù)直接、不作修改地提供給時序數(shù)據(jù)產(chǎn)生單元63。在步驟S108的第二次和隨后的進行處理中,控制單元10控制模型參數(shù)修改單元62以便于修改產(chǎn)生節(jié)點的模型參數(shù)并且結(jié)果的模型參數(shù)提供給時序數(shù)據(jù)產(chǎn)生單元63。
在步驟S109,如同圖15所示的步驟S33,產(chǎn)生單元6(圖14)的時序數(shù)據(jù)產(chǎn)生單元63根據(jù)模型參數(shù)修改單元62提供的產(chǎn)生節(jié)點的模型參數(shù)(嚴格來講,是通過產(chǎn)生節(jié)點的模型參數(shù)定義的HMM形式的時序模式模型21)產(chǎn)生發(fā)音參數(shù)序列,以及時序數(shù)據(jù)產(chǎn)生單元63將所產(chǎn)生的發(fā)音參數(shù)序列提供給學習單元7和驅(qū)動單元8。因此,處理繼續(xù)到步驟S110。
時序數(shù)據(jù)產(chǎn)生單元63以上述方式根據(jù)模型參數(shù)修改單元62提供的產(chǎn)生節(jié)點的模型參數(shù)產(chǎn)生發(fā)音參數(shù)序列。因此,在模型參數(shù)修改單元62提供給時序數(shù)據(jù)產(chǎn)生單元63的產(chǎn)生節(jié)點的模型參數(shù)在步驟S108中進行修改的情況下,在步驟S109從模型參數(shù)中產(chǎn)生的發(fā)音參數(shù)序列出現(xiàn)變化。
在步驟S110,驅(qū)動單元8根據(jù)產(chǎn)生單元6提供的發(fā)音參數(shù)序列執(zhí)行驅(qū)動操作,即驅(qū)動單元8使用產(chǎn)生單元6提供的發(fā)音參數(shù)序列合成一個聲音。所合成的聲音從驅(qū)動單元8輸出出去。此后,處理從步驟S110進行到S111。
在前面步驟S110由驅(qū)動單元8輸出的合成聲音被觀察單元1觀察到。在步驟S111,觀察單元1基于觀察值檢測到合成聲音的聲音持續(xù)時間,以及觀察單元1將聲音持續(xù)時間內(nèi)的語音/話音數(shù)據(jù)提供給特征提取單元2。此后,處理繼續(xù)到步驟S112。
在步驟S112,如同步驟S103,特征提取單元2從觀察單元1提供的語音/話音數(shù)據(jù)中提取聲學參數(shù)和將所提取的時序數(shù)據(jù)形式的聲學參數(shù)序列提供給識別單元5。此后,處理繼續(xù)到步驟S113。
在步驟S113,如同步驟S104,識別單元5以與上述參考圖13的方式相同的方式,使用特征提取單元2提供的聲學參數(shù)序列,即驅(qū)動單元8輸出的合成聲音的聲學參數(shù)序列,執(zhí)行識別處理,識別單元5將表示聽覺SOM的優(yōu)勝者節(jié)點的節(jié)點標記作為從驅(qū)動單元8輸出的合成聲音的識別結(jié)果提供給控制單元10。此后,處理繼續(xù)到步驟S114。
下文中,為從驅(qū)動單元8輸出的合成聲音而獲得的聽覺SOM的優(yōu)勝者節(jié)點將被稱為合成聲音優(yōu)勝者節(jié)點。
在步驟S114,基于步驟S104從識別單元5提供的節(jié)點標記所表示的話音優(yōu)勝者節(jié)點以及基于步驟S113從識別單元5提供的節(jié)點標記所表示的合成聲音優(yōu)勝者節(jié)點,控制單元10確定最終條件是否滿足在步驟S109由產(chǎn)生單元6產(chǎn)生的發(fā)音參數(shù)序列的最終修改以及在步驟S108產(chǎn)生節(jié)點的模型參數(shù)的修改。
最終條件可以是例如作為用戶發(fā)出的話音的識別結(jié)果提供的聽覺SOM的話音優(yōu)勝者節(jié)點與作為驅(qū)動單元8輸出的合成聲音的識別結(jié)果提供的合成聲音優(yōu)勝者節(jié)點相同。當滿足最終條件時,驅(qū)動單元8輸出的合成聲音的識別結(jié)果(作為識別結(jié)果提供的聽覺SOM的優(yōu)勝者節(jié)點)與用戶發(fā)出的話音的識別結(jié)果(作為識別結(jié)果提供的聽覺SOM的優(yōu)勝者節(jié)點)相同,因此驅(qū)動單元8輸出的合成聲音可以被認為與用戶發(fā)出的話音在聽覺SOM不能識別的一個錯誤范圍之內(nèi)相同。注意用戶作為獎勵(肯定獎勵或否定獎勵)提供一個判斷,該判斷是關(guān)于驅(qū)動單元8輸出的合成聲音是否被認為與用戶發(fā)出的話音在不能識別用戶的聽覺感的一個錯誤范圍之內(nèi)相同。因此最終條件的滿足不一定意味著驅(qū)動單元8輸出的合成聲音可以被認為與用戶發(fā)出的話音在無法識別用戶的一個錯誤范圍之內(nèi)相同,但是意味著信息處理裝置(機器人)已經(jīng)確定驅(qū)動單元8輸出的合成聲音與用戶發(fā)出的話音相同。
最終條件的另一個實例是作為驅(qū)動單元8輸出的合成聲音的識別結(jié)果提供的合成聲音優(yōu)勝者節(jié)點和作為用戶發(fā)出的話音的識別結(jié)果提供的聽覺SOM的話音優(yōu)勝者節(jié)點之間的模式間距已經(jīng)等于或小于預(yù)定的閾值(例如1)。
在從步驟S108到S114的循環(huán)中步驟S114的第二次或以后進一步的執(zhí)行中,最終條件可以是合成聲音優(yōu)勝者節(jié)點和話音優(yōu)勝者節(jié)點之間的模式間距等于或大于在該循環(huán)的前一次執(zhí)行中獲得的模式間距(即已經(jīng)獲得了合成聲音優(yōu)勝者節(jié)點和話音優(yōu)勝者節(jié)點之間的模式間距的最小值)。
如果在步驟S114確定終結(jié)產(chǎn)生節(jié)點的模型參數(shù)的修改的最終條件沒有滿足,即如果合成聲音優(yōu)勝者節(jié)點和話音優(yōu)勝者節(jié)點之間的模式間距沒有大于閾值,并且因此信息處理裝置已經(jīng)確定驅(qū)動單元8輸出的合成聲音與用戶發(fā)出的話音不相似,那么處理返回到步驟S108以重復(fù)上述處理。
當在該循環(huán)的第二次或進一步的反復(fù)中執(zhí)行步驟S108時,控制單元10控制模型參數(shù)修改單元62以便根據(jù)第一次執(zhí)行該循環(huán)中獲得的參數(shù)修改產(chǎn)生節(jié)點的模型參數(shù)并且將作為結(jié)果的修改后的模型參數(shù)提供給時序數(shù)據(jù)產(chǎn)生單元63。
也就是說,在控制單元10的控制下,模型參數(shù)修改單元62修改在步驟S107從存儲單元4中讀取的產(chǎn)生節(jié)點的模型參數(shù)和將作為結(jié)果的修改后的模型參數(shù)提供給時序數(shù)據(jù)產(chǎn)生單元63。
與產(chǎn)生節(jié)點相關(guān)的HMM的模型參數(shù)可以根據(jù)下述方法之一進行修改。
第一種方法是首先在與產(chǎn)生節(jié)點相關(guān)的HMM的模型參數(shù)和與屬于發(fā)音SOM并且具有與話音優(yōu)勝者節(jié)點的第二最大連接權(quán)重的節(jié)點相關(guān)的HMM的模型參數(shù)之間確定一個內(nèi)部區(qū)分點,和接著將通過內(nèi)部區(qū)分點表示的HMM的模型參數(shù)用作產(chǎn)生節(jié)點的修改后的模型參數(shù)。確定HMM的模型參數(shù)之間的內(nèi)部區(qū)分點的該方法的具體實例公開在“From Stochastic Motion Generation andRecognition to Geometric Symbol Development and Manipulation”(Tetsunari Inamura,Hiroaki Tanie和Yoshihiko Nakamura,Proc.ofInt’1 Conf.On Humanoid Robots(Humanoids2003))。該方法的另一個實例公開在例如“Construction of proto-type symbol space for relationshipdescription be tween abstract motion by Hidden Markov Models”(Inamura等,Proc.of ROBOMEC 2003,2P2-3F-B2)。
第二種方法是首先在與產(chǎn)生節(jié)點相關(guān)的HMM的模型參數(shù)和與除了產(chǎn)生節(jié)點的任意發(fā)音SOM節(jié)點相關(guān)的HMM的模型參數(shù)之間確定一個外部區(qū)分點,和接著將通過外部區(qū)分點表示的HMM的模型參數(shù)用作產(chǎn)生節(jié)點的修改后的模型參數(shù)。HMM的模型參數(shù)的外部區(qū)分點以與內(nèi)部區(qū)分點相似的方式進行確定。
第三種方法是隨機修改與產(chǎn)生節(jié)點相關(guān)的HMM的模型參數(shù)。
注意修改與產(chǎn)生節(jié)點相關(guān)的HMM的模型參數(shù)的方法不限于上述三種方法。還應(yīng)注意與產(chǎn)生節(jié)點相關(guān)的HMM的模型參數(shù)的修改不一定需要使用上述三種固定的方法,而方法可以隨著需要改變。
例如,當作為前述步驟S113中合成聲音的識別結(jié)果獲得的話音優(yōu)勝者節(jié)點和合成聲音優(yōu)勝者節(jié)點之間的模式間距相當小(不很大)時,使用第一種方法修改模型參數(shù)。另一方面,當模式間距很大時,使用第二或第三種方法修改模型參數(shù)。
如果步驟S108完成,即如果模型參數(shù)修改單元62已經(jīng)以上述方式修改了產(chǎn)生節(jié)點的模型參數(shù)并將該修改后的模型參數(shù)提供給時序數(shù)據(jù)產(chǎn)生單元63,則處理繼續(xù)到步驟S109。在步驟S109,產(chǎn)生單元6(圖14)的時序數(shù)據(jù)產(chǎn)生單元63根據(jù)模型參數(shù)修改單元62提供的產(chǎn)生節(jié)點的(HMM形式的時序模式模型21的)模型參數(shù)產(chǎn)生一個發(fā)音參數(shù)序列并將所產(chǎn)生的發(fā)音參數(shù)序列提供給學習單元7和驅(qū)動單元8。此后,處理繼續(xù)到步驟S110。在步驟S110,驅(qū)動單元8使用產(chǎn)生單元6提供的發(fā)音參數(shù)序列產(chǎn)生合成聲音并輸出作為結(jié)果的合成聲音。此后,處理從步驟S110進行到S111。
在這種具體情況中,因為模型參數(shù)修改單元62提供給時序數(shù)據(jù)產(chǎn)生單元63的產(chǎn)生節(jié)點的模型參數(shù)在步驟S108中進行修改,在當前步驟S109從該模型參數(shù)中產(chǎn)生的發(fā)音參數(shù)序列與步驟S109的前次運行中產(chǎn)生的發(fā)音參數(shù)序列不同。因此,在步驟S110的當前運行中從該發(fā)音參數(shù)序列產(chǎn)生的合成聲音也與步驟S110的前次運行中產(chǎn)生的合成聲音不同。
此后,以與上述相似的方式執(zhí)行步驟S111到S113,表示聽覺SOM的優(yōu)勝者節(jié)點的節(jié)點標記被從識別單元5提供給控制單元10,所述的優(yōu)勝者節(jié)點是在前一步驟S110產(chǎn)生的合成聲音上獲得的作為圖13所示的識別處理的結(jié)果。此后,處理繼續(xù)到步驟S114。
如果在步驟S114確定終結(jié)產(chǎn)生節(jié)點的模型參數(shù)的修改的最終條件被滿足,即例如,如果作為從步驟S108到S114的循環(huán)反復(fù)運行的結(jié)果,作為基于步驟S108中修改的HMM的模型參數(shù)所產(chǎn)生的發(fā)音參數(shù)序列而產(chǎn)生的合成聲音的識別結(jié)果而獲得的合成聲音優(yōu)勝者節(jié)點已經(jīng)與話音優(yōu)勝者節(jié)點相同,或者如果合成聲音優(yōu)勝者節(jié)點和話音優(yōu)勝者節(jié)點之間的模式間距已經(jīng)等于或小于預(yù)定的閾值并且因此信息處理裝置已經(jīng)確定驅(qū)動單元8輸出的合成聲音與用戶發(fā)出的話音相似,那么處理繼續(xù)到步驟S115。在步驟S115,控制單元10控制學習單元7來修改發(fā)音SOM和存儲單元4中存儲的連接網(wǎng)絡(luò)的連接權(quán)重。此后,處理返回到步驟S102以等待用戶發(fā)出下一個話音。如果發(fā)出下一個話音,則重復(fù)上述處理。
這種情況下,如果沒有提供獎勵(即如果圖17所示的步驟S46的回答是否),那么學習單元7在控制單元10的控制下修改自學習連接權(quán)重(圖17所示的步驟S47)。更確切地說,學習單元7根據(jù)前一步驟S109中由產(chǎn)生單元6提供的發(fā)音參數(shù)序列,即根據(jù)已經(jīng)滿足最終條件的發(fā)音參數(shù)序列,(通過學習)修改發(fā)音SOM和存儲單元4中存儲的連接網(wǎng)絡(luò)的連接權(quán)重,其方式與上面參考圖17的描述相類似。
另一方面,在已經(jīng)提供獎勵的情況下(即對圖17所示的步驟S46的回答為是),那么學習單元7在控制單元10的控制下修改有指導(dǎo)學習連接權(quán)重(圖17所示的步驟S48)。更確切地說,學習單元7根據(jù)前一步驟S109中由產(chǎn)生單元6提供的發(fā)音參數(shù)序列,即根據(jù)已經(jīng)滿足最終條件的發(fā)音參數(shù)序列,(通過學習)修改存儲單元4中存儲的連接網(wǎng)絡(luò)的發(fā)音SOM,和學習單元7還根據(jù)獎勵(作為訓(xùn)練信號)為前一步驟S110中通過驅(qū)動單元8輸出的音素以與上面參考圖17的描述相類似的方式修改存儲單元4中存儲的連接網(wǎng)絡(luò)的連接權(quán)重。
現(xiàn)在,接下來詳細描述修改自學習連接權(quán)重的處理和修改有指導(dǎo)的學習連接權(quán)重的處理。
首先,詳細描述修改自學習連接權(quán)重的處理。
也就是說,在學習單元7(圖16)中,如同上述圖17中的步驟S41,分數(shù)計算單元71計算表示存儲單元4中存儲的發(fā)音SOM的每個節(jié)點與前一步驟S109中從產(chǎn)生單元6提供的新發(fā)音參數(shù)序列的相似分數(shù),和分數(shù)計算單元71向優(yōu)勝者節(jié)點確定單元72和自學習連接權(quán)重修改單元76提供所計算的分數(shù)。
作為響應(yīng),如同上述圖17中的步驟S42,優(yōu)勝者節(jié)點確定單元72從發(fā)音SOM的所有節(jié)點中選擇出一個具有通過分數(shù)計算單元71計算的最高分數(shù)的節(jié)點,和優(yōu)勝者節(jié)點確定單元72將所選擇的節(jié)點用作優(yōu)勝者節(jié)點。優(yōu)勝者節(jié)點確定單元72向修改權(quán)重確定單元73提供一個表示優(yōu)勝者節(jié)點的節(jié)點標記。作為響應(yīng),如同上述圖17中的步驟S43,依據(jù)每個節(jié)點和由優(yōu)勝者節(jié)點確定單元72提供的節(jié)點標記表示的優(yōu)勝者節(jié)點之間的模式間距,修改權(quán)重確定單元73確定發(fā)音SOM的每個節(jié)點的確定權(quán)重,修改權(quán)重確定單元73將每個節(jié)點作為結(jié)果的確定權(quán)重提供給學習數(shù)據(jù)修改單元74。
學習數(shù)據(jù)修改單元74以類似于圖17中步驟S44的方式通過將產(chǎn)生單元6提供的新發(fā)音參數(shù)序列和學習數(shù)據(jù)存儲單元22中存儲的發(fā)音SOM的節(jié)點的舊學習數(shù)據(jù)以一個比率進行混合來獲得新學習數(shù)據(jù),所述的比率是根據(jù)與每個節(jié)點相關(guān)的確定權(quán)重進行確定的。因此,通過新學習數(shù)據(jù)來更新學習數(shù)據(jù)存儲單元22中存儲的數(shù)據(jù)內(nèi)容。
接著,如同上述圖17中的步驟S45,模型學習單元75通過使用由學習數(shù)據(jù)修改單元74修改并且存儲在學習數(shù)據(jù)存儲單元22中的新學習數(shù)據(jù)對時序模式模型21(HMM)執(zhí)行學習以便修改發(fā)音SOM的每個節(jié)點的時序模式模型21。
另一方面,在沒有提供獎勵的情況下,自學習連接權(quán)重修改單元76根據(jù)分數(shù)計算單元71在步驟S41提供的關(guān)于由產(chǎn)生單元6提供的新發(fā)音參數(shù)序列的分數(shù),為發(fā)音SOM的每個節(jié)點修改存儲單元4中存儲的連接網(wǎng)絡(luò)的連接權(quán)重,其方式類似于上述圖17中的步驟S46和S47的方式。
也就是說,自學習連接權(quán)重修改單元76修改聽覺SOM的每個節(jié)點和發(fā)音SOM的優(yōu)勝者節(jié)點之間的連接權(quán)重,所述的優(yōu)勝者節(jié)點是具有分數(shù)計算單元71計算的最高分數(shù)并因此具有與觀察到的在滿足最終條件時(在前一步驟S109中從產(chǎn)生單元6提供的發(fā)音參數(shù)序列)獲得的發(fā)音參數(shù)序列的最高似然性,這樣聽覺SOM的話音優(yōu)勝者節(jié)點和發(fā)音SOM的優(yōu)勝者節(jié)點之間的連接權(quán)重極大增加(增強)。
更確切地說,自學習連接權(quán)重修改單元76根據(jù)下面的等式修改連接權(quán)重。
cwnew(W,j)=cwold(W,j)+βscore_in(j)score_out(W)(2)其中,W是表示屬于發(fā)音SOM并具有在滿足最終條件時觀察到的發(fā)音參數(shù)序列的最高似然性的節(jié)點的索引(即具有分數(shù)計算單元71計算的最高分數(shù)的優(yōu)勝者節(jié)點),j是表示聽覺SOM的節(jié)點的索引。當聽覺SOM的節(jié)點的總數(shù)量為N時,索引j取值1,2,...,N。
這里,如果發(fā)音SOM中由索引W表示的節(jié)點(具有在滿足最終條件時觀察到的發(fā)音參數(shù)序列的最高似然性的節(jié)點)被標記為節(jié)點#W,聽覺SOM中由索引j表示的節(jié)點被標記為節(jié)點#j,那么等式(2)中的cwnew(W,j)表示發(fā)音SOM中的節(jié)點#W和聽覺SOM的節(jié)點#j之間的修改的連接權(quán)重,和cwold(W,j)表示發(fā)音SOM的節(jié)點#W和聽覺SOM的節(jié)點#j之間的前一個連接權(quán)重。
在等式(2)中,β是一個常量,score_in(j)表示為用戶發(fā)出的話音確定的聽覺SOM節(jié)點#j的分數(shù),而score_out(W)表示為滿足最終條件時獲得的發(fā)音參數(shù)序列確定的發(fā)音SOM節(jié)點#W的分數(shù),即作為滿足最終條件時獲得的發(fā)音參數(shù)序列的優(yōu)勝者節(jié)點的發(fā)音SOM節(jié)點#W的分數(shù)。
在等式(2)中,自學習連接權(quán)重修改單元76從分數(shù)計算單元71提供的分數(shù)中獲得發(fā)音SOM節(jié)點#W的分數(shù)score_out(W),和從控制單元10中獲得聽覺SOM的每個節(jié)點#j的分數(shù)score_in(j)。也就是說,控制單元10從識別單元5中獲得為用戶發(fā)出的話音確定的聽覺SOM的每個節(jié)點#j的分數(shù)score_in(j)并將其提供給自學習連接權(quán)重修改單元76。自學習連接權(quán)重修改單元76使用控制單元10提供的分數(shù)score_in(j)計算等式(2)。
在步驟S115,自學習連接權(quán)重修改單元76還可以修改存儲單元4中存儲的連接網(wǎng)絡(luò)的連接權(quán)重,如下所示。
也就是說,自學習連接權(quán)重修改單元76修改聽覺SOM的每個節(jié)點和發(fā)音SOM的優(yōu)勝者節(jié)點之間的連接權(quán)重,所述的優(yōu)勝者節(jié)點具有分數(shù)計算單元71計算的最高分數(shù),以便在具有觀察到的在滿足最終條件時(在前一步驟S109中產(chǎn)生單元6提供的發(fā)音參數(shù)序列)獲得的發(fā)音參數(shù)序列的最大似然性的發(fā)音SOM節(jié)點和為觀察單元1輸出的觀察值確定的聽覺SOM的優(yōu)勝者節(jié)點之間的連接權(quán)重獲得最大增量,所述發(fā)音SOM的節(jié)點即具有分數(shù)計算單元71計算的最高分數(shù)的優(yōu)勝者節(jié)點,所述觀察值是作為驅(qū)動單元8根據(jù)發(fā)音SOM的優(yōu)勝者節(jié)點產(chǎn)生的發(fā)音參數(shù)輸出的合成聲音的觀察值。
更確切地說,自學習連接權(quán)重修改單元76根據(jù)下面的等式修改連接權(quán)重。
cwnew(W,j)=cwold(W,j)+βscore_in’(j)score_out(W)(3)其中,W,j,cwnew(W,j),cwold(W,j),β,和score_out(W)與等式(2)中的相同,score_in’(j)表示由驅(qū)動單元8根據(jù)發(fā)音SOM節(jié)點#W產(chǎn)生的發(fā)音參數(shù)序列產(chǎn)生的合成聲音確定的聽覺SOM節(jié)點#j的分數(shù)。
當根據(jù)等式(3)修改連接權(quán)重時,需要獲得為驅(qū)動單元8根據(jù)發(fā)音SOM節(jié)點#W產(chǎn)生的發(fā)音參數(shù)序列產(chǎn)生的合成聲音確定的聽覺SOM節(jié)點#j的分數(shù)score_in’(j)。
出于上述目的,控制單元10控制產(chǎn)生單元6從通過學習單元7修改的發(fā)音SOM的節(jié)點#W中產(chǎn)生發(fā)音參數(shù)序列。更確切地說,在控制單元10的控制下,產(chǎn)生單元6(圖14)的模型參數(shù)修改單元62從存儲單元4中讀取發(fā)音SOM的節(jié)點#W的模型參數(shù)并將其直接提供給時序數(shù)據(jù)產(chǎn)生單元63。
時序數(shù)據(jù)產(chǎn)生單元63從模型參數(shù)修改單元62提供的節(jié)點#W的模型參數(shù)(通過模型參數(shù)定義的時序模式模型21的HMM)中產(chǎn)生發(fā)音參數(shù)序列,時序數(shù)據(jù)產(chǎn)生單元63將所產(chǎn)生的發(fā)音參數(shù)序列提供給驅(qū)動單元8。
控制單元10控制驅(qū)動單元8使用產(chǎn)生單元6提供的發(fā)音參數(shù)序列來產(chǎn)生合成聲音。驅(qū)動單元8輸出的合成聲音被觀察單元1觀察到。觀察單元1基于該觀察值檢測到合成聲音的聲音持續(xù)時間,并且觀察單元1將聲音持續(xù)時間內(nèi)的語音/聲音數(shù)據(jù)提供給特征提取單元2。特征提取單元2從觀察單元1提供的語音/聲音數(shù)據(jù)中提取一個聲學參數(shù)并將所提取的時序數(shù)據(jù)形式的聲學參數(shù)序列提供給學習單元3和識別單元5。識別單元5使用特征提取單元2提供的聲學參數(shù)序列,即驅(qū)動單元8輸出的合成聲音的聲學參數(shù)序列,來執(zhí)行識別處理,其方式類似于上述參考圖13的方式。
控制單元10通過識別單元5在控制單元10的控制下執(zhí)行的識別處理獲得因合成聲音獲得的聲學參數(shù)序列的聽覺SOM節(jié)點#j的分數(shù)score_in’(j),控制單元10將所獲得的分數(shù)score_in’(j)提供給自學習連接權(quán)重修改單元76。自學習連接權(quán)重修改單元76使用控制單元10提供的分數(shù)score_in’(j)計算等式(3)。
在步驟S115通過等式(3)修改連接權(quán)重的情況下,在完成連接權(quán)重的修改之后處理繼續(xù)到圖18所示的虛線表示的框內(nèi)的步驟S116。在步驟S116,控制單元10控制學習單元3使用由驅(qū)動單元8根據(jù)發(fā)音SOM節(jié)點#W產(chǎn)生的發(fā)音參數(shù)序列產(chǎn)生的合成聲音的聲學參數(shù)序列來修改存儲單元4中存儲的聽覺SOM。
也就是說,驅(qū)動單元8根據(jù)發(fā)音SOM節(jié)點#W產(chǎn)生的發(fā)音參數(shù)序列產(chǎn)生的合成聲音的聲學參數(shù)序列如上所述被特征提取單元2提供給學習單元3和識別單元5。在控制單元10的控制下,學習單元3使用所接收的合成聲音的聲學參數(shù)序列執(zhí)行上述參考圖11的學習從而修改存儲單元4中存儲的聽覺SOM。
上面已經(jīng)詳細描述了自學習連接權(quán)重的修改。
現(xiàn)在,下面詳細描述有指導(dǎo)學習連接權(quán)重的修改。
有指導(dǎo)學習連接權(quán)重修改單元77修改聽覺SOM的每個節(jié)點和發(fā)音SOM的一個節(jié)點之間的連接權(quán)重,所述的發(fā)音SOM的一個節(jié)點具有觀察到的在滿足最終條件時(在前一步驟S109中產(chǎn)生單元6提供的發(fā)音參數(shù)序列)獲得的發(fā)音參數(shù)序列的最高似然性,即具有分數(shù)計算單元71計算的最高分數(shù)的優(yōu)勝者節(jié)點,因此在提供肯定的獎勵時與聽覺SOM的話音優(yōu)勝者節(jié)點相關(guān)的連接權(quán)重最大程度地增加,同時在提供否定的獎勵時與聽覺SOM的話音優(yōu)勝者節(jié)點相關(guān)的連接權(quán)重最大程度地減少。
更確切地說,當提供肯定的獎勵時,有指導(dǎo)學習連接權(quán)重修改單元77例如根據(jù)下面的等式修改連接權(quán)重。
cwnew(W,j)=(1+Ge)cwold(W,j)(4)另一方面,當提供否定的獎勵時,有指導(dǎo)學習連接權(quán)重修改單元77例如根據(jù)下面的等式修改連接權(quán)重。
cwnew(W,j)=(1-Ge)cwold(W,j)(5)在等式(4)和(5)中,Ge是連接權(quán)重cwold(W,j)的增益。增益Ge在0到1的范圍內(nèi)變化。連接權(quán)重的增加或減少的程度隨增益Ge的增加而增加。
確定增益Ge的值的方法沒有特別的限制。例如,增益Ge可以如下進行確定。即,增益Ge的值通過函數(shù)進行確定,因此在步驟S106為聽覺SOM的優(yōu)勝者節(jié)點和發(fā)音SOM的節(jié)點執(zhí)行最強的學習,其中發(fā)音SOM的節(jié)點具有觀察到的在滿足最終條件時(在前一步驟S109中產(chǎn)生單元6提供的發(fā)音參數(shù)序列)獲得的發(fā)音參數(shù)序列的最高似然性,所述發(fā)音SOM節(jié)點即具有分數(shù)計算單元71計算的最高分數(shù)的優(yōu)勝者節(jié)點,并且函數(shù)在增益Ge的值上的影響隨著發(fā)音SOM的節(jié)點和聽覺SOM的節(jié)點之間的模式間距的增加而減少。
在圖9所示的使用HMM和多個SOM的組合確定學習中的修改權(quán)重方法的實例中,根據(jù)高斯(Gaussian)曲線修改所述修改權(quán)重。該方法還可以用于確定增益Ge的值。即,增益Ge的值可以根據(jù)高斯曲線進行確定。如果使用了該方法,增益Ge的值隨著發(fā)音SOM的節(jié)點和聽覺SOM的節(jié)點之間的模式間距的增加而減少(趨向于零)。
不使用上述方法,可以考慮獎勵對學習(有指導(dǎo)學習連接權(quán)重的修改)的影響程度來確定增益Ge的值。下面參考圖19描述該方法的一個具體實例。
在有指導(dǎo)學習連接權(quán)重的修改中,如上所述,以獎勵的形式從外部提供一個正確的答案。當聽覺SOM和發(fā)音SOM處于收斂狀態(tài)時,如果執(zhí)行學習(修改)以便于增加加強或減弱的程度,則可能在聽覺SOM和發(fā)音SOM之間快速建立映射(節(jié)點連接權(quán)重)。
這里,收斂狀態(tài)指的是這樣一種狀態(tài),在該狀態(tài)中,建立(聽覺SOM和發(fā)音SOM)自組織映射以便于其中的任意一個節(jié)點表示某個音素,另一個節(jié)點表示另一個音素,等等。
在有指導(dǎo)學習連接權(quán)重的修改處理的早期階段中,聽覺SOM和發(fā)音SOM還沒有收斂。在聽覺SOM和發(fā)音SOM還沒有收斂的這樣一種狀態(tài)中,如果執(zhí)行學習以便于在有指導(dǎo)學習連接權(quán)重中增加或減少的程度隨著學習進行而增加,那么隨著學習進行,可能出現(xiàn)節(jié)點開始表示與聽覺SOM和發(fā)音SOM不同的類別。這種情況下,如果聽覺SOM和發(fā)音SOM之間的節(jié)點的連接已經(jīng)被加強了,則很難執(zhí)行準確的學習。
為了避免上述問題,在圖19所示的確定增益Ge的值的方法中,定義等式(4)和(5)中的增益Ge項,例如,通過下面所示的等式(6),等式(6)的右側(cè)的值g在有指導(dǎo)學習連接權(quán)重的修改處理的早期階段固定為0直到有指導(dǎo)學習連接權(quán)重已經(jīng)被修改了多于預(yù)定值n次的很多次,但是值g在圖19所示的修改處理的早期階段的末端被轉(zhuǎn)換為一個預(yù)定值(例如1.0)。
Ge=g*C(6)其中,如上所述,依據(jù)已經(jīng)修改的連接權(quán)重的次數(shù)來確定值g,C是變量,其值由有指導(dǎo)學習連接權(quán)重修改單元77根據(jù)發(fā)音SOM和聽覺SOM的節(jié)點之間的模式間距以及還根據(jù)需要的附加信息進行控制。
因此,在該方法中,在連接權(quán)重已經(jīng)修改了小于預(yù)定次數(shù)n的次數(shù)和聽覺SOM和發(fā)音SOM因此還沒有收斂的早期階段,即使提供了獎勵(訓(xùn)練),有指導(dǎo)學習連接權(quán)重實質(zhì)上沒有被修改,如同可以從等式(4)和(5)中看到的,即,有指導(dǎo)學習連接權(quán)重不受獎勵(訓(xùn)練)的影響。
當連接權(quán)重已經(jīng)修改了預(yù)定次數(shù)(n),并且因此聽覺SOM和發(fā)音SOM已經(jīng)被轉(zhuǎn)換到某個程度時,有指導(dǎo)學習連接權(quán)重的修改實質(zhì)上開始了。即,在已經(jīng)修改了預(yù)定次數(shù)(n)的連接權(quán)重之后執(zhí)行的修改中,所述修改受受獎勵(訓(xùn)練)的影響。在該修改模式中,有指導(dǎo)學習連接權(quán)重修改單元77準確地改變等式(6)中的值C,因此準確地改變了連接權(quán)重中增加或減少的程度,從而準確地調(diào)整獎勵(訓(xùn)練)影響的程度。更確切地說,在連接權(quán)重已經(jīng)修改了n+1次時的時間點實質(zhì)上開始了學習,因此有指導(dǎo)學習連接權(quán)重修改單元77控制等式(6)右側(cè)的值C以便于連接權(quán)重中增加或減少的程度在學習的早期階段維持得低(直到連接權(quán)重已經(jīng)修改了n+1次),但是連接權(quán)重的增強或減弱的程度隨著學習的進行而增加(在連接權(quán)重已經(jīng)修改了n+1次),因此聽覺SOM和發(fā)音SOM(嚴格來說,其中的自組織映射)正被收斂。也就是說,當提供了肯定的獎勵時執(zhí)行增加連接權(quán)重的增強或減弱的程度從而增加cwnew(W,j)的值,但是當提供了否定的獎勵時減少cwnew(W,j)的值。這使得能夠更快速和更準確地學習映射(即聽覺SOM的每個節(jié)點和發(fā)音SOM的每個節(jié)點之間的連接權(quán)重)。
盡管通過有指導(dǎo)學習連接權(quán)重已經(jīng)被修改的次數(shù)來定義連接權(quán)重已經(jīng)被修改的次數(shù),但是還可以通過有指導(dǎo)學習連接權(quán)重已經(jīng)被修改的次數(shù)和自評價連接權(quán)重已經(jīng)被修改的次數(shù)的求和來定義連接權(quán)重已經(jīng)被修改的次數(shù)。
上面已經(jīng)詳細描述了修改自學習連接權(quán)重的處理以及修改有指導(dǎo)學習連接權(quán)重的處理。
當期望進一步增加用戶提供的獎勵(訓(xùn)練)的影響時,通過修改有指導(dǎo)學習連接權(quán)重增強(或減弱)的程度比自學習連接權(quán)重增強(或減弱)的程度增加得更多。
在圖18所示的實例中,當步驟S114的回答為是的時候,在步驟S115執(zhí)行有指導(dǎo)學習連接權(quán)重的修改。但是,在有指導(dǎo)學習連接權(quán)重的修改的時間上沒有特殊的限制,并且該修改可以在提供了一個獎勵之后的任意一個時間點進行,而不用考慮步驟S114的回答。
在如上所述圖1所示的信息處理裝置中,基于用戶發(fā)出的話音的聲學參數(shù)序列來學習(修改)聽覺SOM,并且聽覺SOM中的一個具有為用戶發(fā)出的話音的聲學參數(shù)計算的最高分數(shù)的節(jié)點被確定為優(yōu)勝者節(jié)點。而且,搜索具有與聽覺SOM的優(yōu)勝者節(jié)點的最大連接權(quán)重的發(fā)音SOM的一個節(jié)點,以及一個檢測到的節(jié)點被用作產(chǎn)生節(jié)點。而且,在圖1所示的信息處理裝置中,產(chǎn)生節(jié)點產(chǎn)生的發(fā)音參數(shù)序列通過修改與該產(chǎn)生節(jié)點相關(guān)的模型參數(shù)來修改,和根據(jù)作為結(jié)果的發(fā)音參數(shù)序列來產(chǎn)生合成聲音。而且,基于為這個合成聲音確定的聽覺SOM的優(yōu)勝者節(jié)點(合成聲音優(yōu)勝者節(jié)點)和基于為用戶發(fā)出的話音確定的聽覺SOM的優(yōu)勝者節(jié)點(話音優(yōu)勝者節(jié)點),確定是否滿足最終條件。如果滿足了最終條件,則修改連接權(quán)重,而且,基于在滿足最終條件時獲得的發(fā)音參數(shù)序列來學習(修改)發(fā)音SOM。
因此,在使用圖1所示的信息處理裝置的機器人或者類似的裝置中,有可能有效改變機器人的行為,自我評價作為結(jié)果的行為,和使該行為適應(yīng)從外界應(yīng)用到該機器人的刺激。更確切地說,例如,有效改變作為機器人的行為發(fā)出的話音(合成聲音),作為結(jié)果的合成聲音經(jīng)過了自我評價,和使合成聲音適應(yīng)于由用戶作為外部刺激提供的話音。
也就是說,圖1所示的信息處理裝置(和使用它的機器人)根據(jù)圖20所示的協(xié)議P201能夠執(zhí)行包括與用戶通信的處理。
協(xié)議P201包括步驟S201-1和S201-2,如下所述。
在步驟S201-1,用戶通過發(fā)出一個話音向機器人提供該用戶所屬的社會中實際使用的模型音素。該機器人使用聽覺SOM識別該用戶發(fā)出的話音并發(fā)出通過模仿該用戶發(fā)出的話音而產(chǎn)生的合成聲音。在合成聲音的產(chǎn)生中,該機器人修改發(fā)音SOM的發(fā)音參數(shù),根據(jù)修改的發(fā)音參數(shù)合成一個聲音,和輸出該合成聲音。
在步驟S201-2,該機器人搜索與用戶發(fā)出的話音相似的語音和自評價該語音。更確切地說,該機器人通過使用聽覺SOM在由該機器人本身輸出的合成聲音上執(zhí)行語音識別,和通過確定是否滿足最終條件來自評價該合成聲音是否與用戶發(fā)出的話音相似。如果自評價是合成聲音與用戶發(fā)出的話音充分地相似(即,如果滿足最終條件),借助于無指導(dǎo)的學習通過發(fā)音SOM和聽覺SOM的對應(yīng)節(jié)點的映射來獲得發(fā)音SOM和聽覺SOM的節(jié)點之間的準確連接(映射),通過發(fā)音SOM和聽覺SOM的對應(yīng)節(jié)點的映射也就是,通過加強允許它產(chǎn)生與用戶發(fā)出的話音相似的合成聲音的發(fā)音SOM節(jié)點和作為合成聲音或用戶發(fā)出的話音的識別結(jié)果獲得的聽覺SOM節(jié)點之間的連接。
在該技術(shù)中,如果用戶發(fā)出一個話音,機器人(即圖1所示的信息處理裝置)通過修改時序模式模型21(圖5)的模型參數(shù)來修改發(fā)音參數(shù)以實現(xiàn)目標(發(fā)音目標),該目標即為允許它產(chǎn)生與用戶發(fā)出的話音相似的合成聲音的發(fā)音參數(shù)(序列),其中所述的時序模式模型21與發(fā)音SOM的關(guān)心節(jié)點相關(guān)。而且,在該機器人(即圖1所示的信息處理裝置)中,驅(qū)動單元8根據(jù)修改后的發(fā)音參數(shù)產(chǎn)生合成聲音。使用聽覺SOM識別作為結(jié)果的合成聲音,并通過確定是否滿足最終條件來對作為結(jié)果的合成聲音進行自我評價以確定合成聲音是否與用戶發(fā)出的話音充分的相似。而且,在該機器人(即圖1所示的信息處理裝置)中,修改發(fā)音SOM和聽覺SOM之間的映射(連接權(quán)重)以便于增強發(fā)音SOM的節(jié)點和聽覺SOM的節(jié)點之間的連接,所述發(fā)音SOM的節(jié)點允許其產(chǎn)生與用戶發(fā)出的話音相似的合成聲音,所述聽覺SOM的節(jié)點是作為合成聲音或用戶發(fā)出的話音的識別結(jié)果而獲得的。
因此,通過以上述方式把圖1所示的信息處理裝置應(yīng)用到機器人或類似的裝置,實現(xiàn)這樣一種機器人成為可能,即當用戶發(fā)出一個話音,該機器人重復(fù)地產(chǎn)生合成聲音直到該合成聲音充分與用戶發(fā)出的話音相似,即該機器人可以直接模仿用戶發(fā)出的話音。
可以通過使用兩種方法之一來產(chǎn)生模仿用戶發(fā)出的話音的合成聲音。第一種方法是使用字典在用戶發(fā)出的話音上執(zhí)行語音識別和根據(jù)語音識別的結(jié)果產(chǎn)生合成聲音。第二種方法是記錄用戶發(fā)出的話音和播放它。
在第一種方法中,因為使用字典執(zhí)行語音識別,不可能識別出字典內(nèi)沒有登記的單詞以及不可能合成這樣的一個單詞。即,在第一種方法中,可能在字典登記的單詞的范圍內(nèi)直接模仿用戶發(fā)出的話音。
在第二種方法中,用戶發(fā)出的話音僅被記錄并播放,因此任何微小的差別或不同會出現(xiàn)在用戶發(fā)出的話音和機器人發(fā)出的聲音之間。這種類型的機器人不會有太多人感興趣。在第二種方法中,合成聲音可以通過一個過濾器來將合成聲音轉(zhuǎn)換成具有與用戶發(fā)出的話音的頻率成分不同的頻率成分的聲音。
例如,在日本未審查的專利申請公開號11-9847,日本專利號1758551,PCT日本譯本專利公開號2001-522471,日本未審查的專利申請公開號09-179572和日本未審查的專利申請公開號2000-122699中公開了直接模仿用戶發(fā)出的話音的技術(shù)的具體實例和轉(zhuǎn)換合成聲音的技術(shù)的實例。
當?shù)谝环N或第二種方法應(yīng)用到機器人時,該機器人通過模仿用戶發(fā)出的話音僅發(fā)出一個話音,因此用戶沒有感覺到作為機器人的成長結(jié)果該機器人已經(jīng)能夠模仿用戶發(fā)出的話音。
另一方面,當圖1所示的信息處理裝置應(yīng)用到機器人時,可能實現(xiàn)這樣一種機器人,它能夠?qū)W習如何講話和能夠通過學習處理越來越好的模仿用戶發(fā)出的話音。由該機器人產(chǎn)生的合成聲音受到擔任發(fā)音器的發(fā)音SOM的限制(例如,受到發(fā)音SOM的節(jié)點總數(shù)、節(jié)點排列結(jié)構(gòu)、用作發(fā)音參數(shù)的參數(shù)和用作時序模式模型21(圖5)的模型的限制)。這限制了機器人模仿用戶發(fā)出的話音的能力,和該機器人輸出作為模仿用戶發(fā)出的話音的最佳努力的結(jié)果獲得的合成聲音。這允許機器人在模仿用戶發(fā)出的話音方面具有特定的個性。而且,該用戶可以感覺到在學習的早期階段不能很好地模仿用戶發(fā)出的話音的機器人開始能夠通過學習處理越來越好地模仿用戶發(fā)出的話音。
如上所述,圖1所示的信息處理裝置通過基于自評價的無指導(dǎo)的學習能夠獲得聽覺SOM和發(fā)音SOM之間的映射(聽覺SOM和發(fā)音SOM之間的節(jié)點連接權(quán)重)。一旦獲得了映射,信息處理裝置可以識別出用戶發(fā)出的話音(語音),和可以產(chǎn)生類似于用戶發(fā)出的語音的合成語音。
而且,通過以自組織方式學習(修改)聽覺SOM,圖1所示的信息處理裝置可以獲得區(qū)分任意音素的能力,并且因此可以獲得識別任意音素的能力。也就是說,信息處理裝置可以獲得模仿一組任意音素(的模型)的能力而無需使用準備好的定義音素的字典,即信息處理裝置可以獲得用戶使用的音素和模仿用戶使用的音素。
如果用戶發(fā)出一個話音,圖1所示的信息處理裝置(重復(fù)地)輸出一個合成聲音來找出與用戶發(fā)出的話音更類似的合成聲音。這種行為讓用戶感覺到信息處理裝置模仿用戶發(fā)出的話音。而且,對于用戶來說,似乎信息處理裝置隨著連接網(wǎng)絡(luò)上的學習(修改)的進行開始能夠越來越好地模仿了,連接網(wǎng)絡(luò)即聽覺SOM、發(fā)音SOM和連接權(quán)重。
因為圖1所示的信息處理裝置不僅隨機地產(chǎn)生合成聲音而且還獲得與用戶發(fā)出的那些聲音相似的聲音,該用戶感覺到信息處理裝置正試圖模仿該用戶發(fā)出的話音。
對于用戶來說,由圖1所示的信息處理裝置執(zhí)行的學習(修改)連接網(wǎng)絡(luò)的處理好像信息處理裝置正在播放直接模仿用戶發(fā)出的聲音的一個游戲。對于用戶來說這是非常有趣的。
圖1所示的信息處理裝置在擔任發(fā)音器的發(fā)音SOM的限制范圍內(nèi)輸出作為模仿用戶發(fā)出的話音的最佳努力的結(jié)果獲得的合成聲音。因此,不像通過記錄話音和播放它們來簡單地模仿用戶發(fā)出的話音,可能在模仿用戶發(fā)出的話音方面有特定的個性。
而且,在圖1所示的信息處理裝置中,每次用戶發(fā)出一個話音,實時執(zhí)行連接網(wǎng)絡(luò)的學習(修改),用戶可以觀察到越來越好的獲得模仿用戶發(fā)出的話音的能力的處理。
但是,在圖1所示的信息處理裝置中,如早先所述,當聽覺SOM和發(fā)音SOM之間的映射(節(jié)點連接權(quán)重)通過僅基于自我評價的無指導(dǎo)的學習來獲得時,如果自我評價是錯誤的,獲得的映射也是錯誤的。
可以有兩種類型的錯誤映射。在第一種類型的錯誤映射中,盡管由機器人基于發(fā)音參數(shù)產(chǎn)生的某個音素包括在人類社會中實際使用的音素中,但是該音素映射到一個錯誤的音素。在第二種類型的錯誤映射中,由機器人基于發(fā)音參數(shù)產(chǎn)生的某個音素沒有包括在人類社會中實際使用的音素中,并且該音素映射到人類社會中實際使用的一個特定音素。
在圖1所示的信息處理裝置中,為了避免上述問題,如上所述,除了無指導(dǎo)的學習之外,通過執(zhí)行基于用戶作為訓(xùn)練信號提供的獎勵的有指導(dǎo)的學習來建立更準確的映射。更確切地說,例如,圖1所示的信息處理裝置(和使用它的機器人)根據(jù)圖21所示的協(xié)議P202或圖22所示的協(xié)議P203通過執(zhí)行包括與用戶通信的處理來建立正確的映射。
首先,在協(xié)議P202中,用戶教給機器人音素,其方式類似于人類成年人教給人類小孩音素。更確切地說,用戶提供各種模型音素給機器人,機器人基于所提供的模型音素學習聽覺SOM和發(fā)音SOM之間的映射(節(jié)點連接權(quán)重)。當該機器人已經(jīng)學習映射到某個程度時,用戶讓機器人根據(jù)協(xié)議P203運行一個處理。也就是說,用戶讓機器人隨機發(fā)出聲音(隨機輸出合成聲音)和根據(jù)合成聲音(音素)提供獎勵給機器人。該機器人根據(jù)所提供的獎勵學習與合成聲音相關(guān)的映射。這使得該機器人能夠獲得更準確的映射。
下面進一步詳細描述協(xié)議P202和P203。
首先參考圖21,描述協(xié)議P202。
協(xié)議P202包括步驟S202-1、S202-2和S202-3。
步驟S202-1和S202-2基本上類似于上面參考圖20描述的協(xié)議P201的步驟S201-1和S201-2,和因此省略了其中的重復(fù)解釋。
當機器人發(fā)出一個音素作為步驟S202-2中的處理的結(jié)果時,如果用戶評價它與用戶在步驟S202-1提供的模型音素中的一個的類別相同,那么在步驟S202-3,用戶提供肯定的獎勵給機器人。響應(yīng)于接收到肯定的獎勵,該機器人修改連接權(quán)重以便于增強聽覺SOM的HMM的節(jié)點和發(fā)音SOM的HMM的節(jié)點之間的連接權(quán)重,所述的聽覺SOM的HMM的節(jié)點對應(yīng)于步驟S202-1中識別的模型音素,所述的發(fā)音SOM的HMM的節(jié)點對應(yīng)于機器人在步驟S202-2中發(fā)出的音素。
另一方面,當機器人發(fā)出一個音素作為步驟S202-2中的處理的結(jié)果時,如果用戶評價它與用戶在步驟S202-1提供的模型音素中的一個的類別不相同,那么在步驟S202-3,用戶提供否定的獎勵給機器人。響應(yīng)于接收到否定的獎勵,該機器人修改連接權(quán)重以便于減弱聽覺SOM的HMM的節(jié)點和發(fā)音SOM的HMM的節(jié)點之間的連接權(quán)重,所述的聽覺SOM的HMM的節(jié)點對應(yīng)于步驟S202-1中識別的模型音素,所述的發(fā)音SOM的HMM的節(jié)點對應(yīng)于機器人在步驟S202-2中發(fā)出的音素。這導(dǎo)致該機器人越來越不頻繁地發(fā)出這個音素。
現(xiàn)在參考圖22,下面描述協(xié)議P203。
在任意一個時間點,如上所述,機器人使用該機器人(圖1所示的信息處理裝置)的發(fā)音器基于發(fā)音SOM的HMM的節(jié)點產(chǎn)生一個發(fā)音參數(shù)(發(fā)音參數(shù)序列)和根據(jù)所產(chǎn)生的發(fā)音參數(shù)發(fā)出一個合成聲音(音素)。用戶也可以對機器人本能發(fā)出的這樣一個聲音提供獎勵。圖22所示的協(xié)議P203是提供這樣一種獎勵的協(xié)議的實例。
協(xié)議P203包括步驟S203-1和S203-2。
在步驟S203-1,機器人發(fā)出對應(yīng)于發(fā)音SOM隨機選擇的節(jié)點的聲音。
例如,當在步驟S203-1由機器人發(fā)出的合成聲音與用戶也可以發(fā)出的聲音相同時,也就是說當機器人發(fā)出的合成聲音與人類社會中實際使用的聲音中的一種相同時,那么在步驟S203-2,用戶提供肯定的獎勵給機器人。響應(yīng)于接收到肯定的獎勵,機器人將用于識別在步驟S203-1由機器人本身發(fā)出的合成聲音(音素)的聽覺SOM的節(jié)點確定為聽覺SOM的話音優(yōu)勝者節(jié)點。而且,該機器人將用于合成在步驟S203-1發(fā)出的聲音的發(fā)音SOM的節(jié)點確定為發(fā)音SOM的優(yōu)勝者節(jié)點。該機器人于是修改發(fā)音SOM的優(yōu)勝者節(jié)點和聽覺SOM的每個節(jié)點之間的連接權(quán)重以便于發(fā)音SOM的優(yōu)勝者節(jié)點和聽覺SOM的話音優(yōu)勝者節(jié)點之間的連接權(quán)重被最大程度地增加(增強)。
另一方面,當步驟S203-1由機器人發(fā)出的合成聲音是一個用戶所屬的人類社會中沒有使用的聲音時,那么,在步驟S203-2,用戶提供一個否定的獎勵給機器人。響應(yīng)于接收到否定的獎勵,機器人將用于識別在步驟S203-1由機器人本身發(fā)出的合成聲音(音素)的聽覺SOM的節(jié)點確定為聽覺SOM的話音優(yōu)勝者節(jié)點。而且,該機器人將用于合成在步驟S203-1發(fā)出的聲音的發(fā)音SOM的節(jié)點確定為發(fā)音SOM的優(yōu)勝者節(jié)點。該機器人于是修改發(fā)音SOM的優(yōu)勝者節(jié)點和聽覺SOM的每個節(jié)點之間的連接權(quán)重,以便于發(fā)音SOM的優(yōu)勝者節(jié)點和聽覺SOM的話音優(yōu)勝者節(jié)點之間的連接權(quán)重被最大程度地減少(減弱)。這導(dǎo)致該機器人此后以更少頻率地發(fā)出在步驟S203-1中發(fā)出的這個音素。
在上述實施例中,圖21所示的協(xié)議P202和圖22所示的協(xié)議P203一起使用??蛇x地,這些協(xié)議可以單獨使用。
例如,通過單獨使用圖22所示的協(xié)議P203,有可能準確地從機器人產(chǎn)生的音素中刪除人類社會中不使用的音素。
參考圖21和22,作為學習聽覺SOM和發(fā)音SOM之間的映射(節(jié)點連接權(quán)重)的協(xié)議的實例,協(xié)議202和203已經(jīng)在上面進行了描述。
在協(xié)議202和203中,在用戶提供獎勵給機器人的方法上沒有特定限制。在上述協(xié)議202和203的具體實例中,假定圖1所示的信息處理裝置應(yīng)用到機器人,因此可能實施下述的兩種方法之一。
在第一種方法中,為了提供肯定的獎勵給機器人,用戶輕拍機器人的頭部從而提供一個肯定的獎勵信號給配置在機器人的頭部上的觸摸傳感器(未示出)。另一方面,為了提供否定的獎勵給機器人,用戶輕打機器人的頭部從而提供一個否定的獎勵信號給配置在機器人的頭部上的觸摸傳感器。
在第二種方法中,為了提供肯定的獎勵給機器人,用戶溫柔地模仿機器人發(fā)出的聲音。另一方面,為了提供否定的獎勵給機器人,用戶不理睬機器人發(fā)出的聲音(即,用戶不響應(yīng)機器人發(fā)出的聲音)。當使用第二種方法時,期望獎勵采集單元9構(gòu)造為有語音輸入功能或構(gòu)造在觀察單元(語音輸入單元)1中以便于獎勵采集單元9可以使用觀察單元1的語音輸入功能。
如上所述,圖1所示的信息處理裝置不僅能夠根據(jù)自我評價通過圖20所示的協(xié)議P201中的無指導(dǎo)的學習來學習聽覺SOM和發(fā)音SOM之間的映射(節(jié)點連接權(quán)重),還能夠根據(jù)基于肯定或否定的獎勵的有指導(dǎo)學習(有指導(dǎo)學習連接權(quán)重的修改)以更準確地建立所述映射,其中有指導(dǎo)學習例如是通過圖21所示的協(xié)議P202或圖22所示的協(xié)議P203的學習。即使當圖1所示的信息處理裝置發(fā)出一個人類社會實際不使用的音素(合成聲音)時,與該音素相關(guān)的映射通過有指導(dǎo)學習逐漸減弱,因此發(fā)出這樣一個音素的頻率逐漸減少。最終,根本不會發(fā)出該音素。
上述處理序列可以通過硬件或軟件來執(zhí)行。當通過硬件執(zhí)行所述處理時,軟件程序內(nèi)置在通用計算機或類似的設(shè)備上。
圖23描述了發(fā)明的一個實施例,其中用于運行上述處理的程序內(nèi)置在計算機上。
所述程序可以提前存儲在配置在計算機內(nèi)部的硬盤105或作為存儲介質(zhì)的ROM 103。
可選地,所述程序可以臨時或永久地存儲(記錄)到可移動存儲介質(zhì)111,諸如軟磁盤、CD-ROM(光盤只讀存儲器)、MO(磁性)光盤、DVD(數(shù)字化視頻光盤)、磁盤或半導(dǎo)體存儲器。以所謂的軟件包的形式來提供這樣的可移動存儲介質(zhì)111。
除了將程序從可移動存儲介質(zhì)111安裝到計算機上之外,該程序還可以由數(shù)字廣播衛(wèi)星通過無線傳輸或通過諸如LAN(局域網(wǎng))、因特網(wǎng)的網(wǎng)絡(luò)以有線通信的方式從下載站點傳遞到計算機。這種情況下,計算機使用通信單元108接收以上述方式傳送的程序并將該程序安裝到配置在計算機中的硬盤105。
該計算機包括CPU(中央處理單元)102。CPU 102通過總線101連接到輸入/輸出接口110。如果CPU 102通過輸入/輸出接口110接收用戶使用輸入單元107發(fā)布的命令,輸入單元107包括鍵盤、鼠標、麥克風或其它類似的設(shè)備,CPU 102運行存儲在ROM(只讀存儲器)103中的程序。可選的,CPU102可以運行RAM(隨機存取存儲器)104內(nèi)下載的程序,其中該程序被通過以下方式下載到RAM 104中通過將硬盤105中存儲的程序傳遞到RAM 104,或通過傳遞一個經(jīng)由通信單元108被從衛(wèi)星或網(wǎng)絡(luò)接收到后又被安裝到硬盤105上的程序,或通過傳遞一個被從裝載于驅(qū)動109的可移動記錄介質(zhì)111上讀取到后又被安裝到硬盤105上的程序。通過運行所述程序,CPU 102參考流程圖或方框圖執(zhí)行上述處理。如需要,CPU 102通過輸入/輸出接口110輸出所述處理的結(jié)果到包括有LCD(液晶顯示器)和/或揚聲器的輸出單元106。所述處理的結(jié)果也可以通過通信單元108進行傳送或存儲到硬盤105上。
在本發(fā)明中,由計算機運行的執(zhí)行各種處理的程序中描述的處理步驟并不需要根據(jù)流程圖中描述的次序以時間序列運行。相反,處理步驟可以并行或者單獨的進行(通過并行處理或?qū)ο筇幚?。
該程序或者可以由單個計算機運行或者可以以分布方式由多個計算機運行。該程序可以傳遞到位于遠程位置的計算機從而被運行。
圖1所示的信息處理裝置不僅可以應(yīng)用到實際的機器人還可以應(yīng)用到虛擬的機器人,例如顯示器上顯示的人物。
盡管在上述實施例中,屬于狀態(tài)轉(zhuǎn)換幾率模型之一的HMM,被用作與聽覺SOM和發(fā)音SOM的每個節(jié)點相關(guān)的時序模式模型21(圖5),然而另一種狀態(tài)轉(zhuǎn)換幾率模型也可以用作時序模式模型21。
可用作時序模式模型21的這樣一種狀態(tài)轉(zhuǎn)換幾率模型的具體實例是Bayesian網(wǎng)絡(luò)。
在Bayesian網(wǎng)絡(luò)中,通過使用圖表結(jié)構(gòu)表示變量之間的依賴關(guān)系和分配一個條件幾率給每個節(jié)點來執(zhí)行建模。在這種結(jié)構(gòu)中,通過沿時間軸建立一個狀態(tài)轉(zhuǎn)換模型來對時序數(shù)據(jù)進行建模。
Bayesian網(wǎng)絡(luò)中的圖表結(jié)構(gòu)可以通過例如考慮學習數(shù)據(jù)的似然性和圖表結(jié)構(gòu)的復(fù)雜性進行確定,條件幾率可以例如使用最大似然性估計方法或EM(Expectation Maximization)算法來進行估計。Bayesian網(wǎng)絡(luò)的更多的細節(jié)可以參見例如“作為不確定的建模的表示的Bayesian網(wǎng)絡(luò)(Bayesiannetworks as representation for uncertainty modeling)”(Yoichi Kimura,Tutorial on Bayesian Networks,2001)。
至于時序模式模型21(圖5),不僅可以如上所述使用諸如HMM或Bayesian網(wǎng)絡(luò)的狀態(tài)轉(zhuǎn)換幾率模型,還可以使用近似一個函數(shù)的模型(以下稱為函數(shù)近似模型)。
在函數(shù)近似模型中,通過函數(shù)f()以差分等式{x(t)}’=f(x(t))的形式或以差分等式x(t+1)=f(x(t))來表示該模型,由此,通過函數(shù)f()表現(xiàn)時序模式,其中t表示時間(取樣點),x(t)表示時序數(shù)據(jù)在時間t的取樣值或在時間t觀察到的時序數(shù)據(jù),{x(t)}’表示時序數(shù)據(jù)x(t)關(guān)于時間t的一階差分。
根據(jù)學習數(shù)據(jù)確定表示時序模式的函數(shù)f()被稱為函數(shù)近似。函數(shù)近似的具體實例是使用一個多項式表達函數(shù)f()和根據(jù)學習數(shù)據(jù)確定多項式中的系數(shù)。另一個實例是使用一個神經(jīng)網(wǎng)絡(luò)表達函數(shù)f()和根據(jù)學習數(shù)據(jù)確定神經(jīng)網(wǎng)絡(luò)中的參數(shù)。
在使用由多項式表達函數(shù)f()的函數(shù)近似中,多項式的系數(shù)可以使用例如最速下降方法來確定。在使用由神經(jīng)網(wǎng)絡(luò)表達函數(shù)f()的函數(shù)近似的情況中,神經(jīng)網(wǎng)絡(luò)的參數(shù)可以使用反向擴散方法來確定。在反向擴散方法中,輸入數(shù)據(jù)和輸出數(shù)據(jù)被提供給神經(jīng)網(wǎng)絡(luò),并且神經(jīng)網(wǎng)絡(luò)的參數(shù)被學習到,因此滿足輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的關(guān)系。
例如,當一個函數(shù)近似模型被用作時序模式模型21來使用差分等式z(t+1)=f(x(t))形式的函數(shù)f()表示時序模式時,輸入層x(t)和輸出層x(t+1)之間的連接權(quán)重(中間層)是神經(jīng)網(wǎng)絡(luò)的參數(shù),并且使用學習數(shù)據(jù)(時序數(shù)據(jù))學習到這個參數(shù)??梢允褂梅聪驍U散方法來為準確提供的初始值執(zhí)行神經(jīng)網(wǎng)絡(luò)的參數(shù)的學習。至于神經(jīng)網(wǎng)絡(luò),例如,可以使用鏈形神經(jīng)網(wǎng)絡(luò)。
在聽覺SOM和發(fā)音SOM中的每個都包含具有使用神經(jīng)網(wǎng)絡(luò)表示的函數(shù)f()的時序模式模型21的節(jié)點的情況下,需要在神經(jīng)網(wǎng)絡(luò)的學習中確定優(yōu)勝者節(jié)點,如同使用HMM表示時序模式模型21的情況。為了確定優(yōu)勝者節(jié)點,需要為聽覺SOM和發(fā)音SOM的每個節(jié)點計算作為新時序數(shù)據(jù)提供的聲學參數(shù)序列或發(fā)音參數(shù)序列的分數(shù)。
所述分數(shù)可以通過例如新時序數(shù)據(jù)的觀察值(實際值)和根據(jù)使用神經(jīng)網(wǎng)絡(luò)表示的函數(shù)f()的時序模式模型21確定的新時序數(shù)據(jù)的理論值之間的差值的平方和來定義。這種情況下,具有最小分數(shù)的節(jié)點被確定為與新時序數(shù)據(jù)最匹配的優(yōu)勝者節(jié)點。
在確定優(yōu)勝者節(jié)點之后,確定每個節(jié)點的修改權(quán)重。隨后,與每個節(jié)點相關(guān)的(神經(jīng)網(wǎng)絡(luò)的)參數(shù)以類似于使用HMM為時序模式模型21執(zhí)行修改的方式進行修改。
注意,對于聽覺SOM和發(fā)音SOM,與各自節(jié)點相關(guān)的時序模式模型21不一定需要是同一種類型。例如HMM可以用作聽覺SOM的每個節(jié)點的時序模式模型21,同時神經(jīng)網(wǎng)絡(luò)可以用作發(fā)音SOM的每個節(jié)點的時序模式模型21。
在上述實施例中,如上參考圖5的描述,聽覺SOM的每個節(jié)點具有表示時序模式的時序模式模型21和用于存儲在時序模式模型21的學習中使用的時序數(shù)據(jù)形式的學習數(shù)據(jù)的學習數(shù)據(jù)存儲單元22。但是,聽覺SOM的每個節(jié)點并不一定需要時序模式模型21和學習數(shù)據(jù)存儲單元22。例如,聽覺SOM的每個節(jié)點可以具有一個像諸如非專利文件1公開的常規(guī)自組織映射的簡單參數(shù)(聲學參數(shù))。當用聲音時序模式模型21實現(xiàn)聽覺SOM的每個節(jié)點時,可能為輸入的時序數(shù)據(jù)確定優(yōu)勝者節(jié)點(即可能識別輸入時序數(shù)據(jù)),以及還可能為輸入的節(jié)點標記產(chǎn)生時序數(shù)據(jù),但是當使用像常規(guī)自組織映射中的簡單參數(shù)(聲學參數(shù))實現(xiàn)聽覺SOM的每個節(jié)點時,僅可能為固定長度的輸入數(shù)據(jù)確定聽覺SOM中的優(yōu)勝者節(jié)點和產(chǎn)生固定長度的數(shù)據(jù)。換句話說,很難確定可變長度的時序數(shù)據(jù)的優(yōu)勝者節(jié)點,以及很難產(chǎn)生可變長度的時序數(shù)據(jù)。對于發(fā)音SOM這也是事實。
在上述實施例中,準備了用于識別語音(合成聲音)的聽覺SOM和用于產(chǎn)生合成聲音的發(fā)音SOM。使用聽覺SOM識別用戶發(fā)出的話音。使用發(fā)音SOM產(chǎn)生一個合成聲音,和使用所述聽覺SOM識別該合成聲音。修改聽覺SOM和發(fā)音SOM之間的節(jié)點連接權(quán)重,即建立聽覺SOM和發(fā)音SOM之間的映射,因此可以使用聽覺SOM識別出用戶發(fā)出的話音和可以使用聽覺SOM產(chǎn)生與使用聽覺SOM識別出的聽覺SOM類似的合成聲音??蛇x地,可以在與上述映射類型不同的自組織映射之間建立映射。
例如,在通過驅(qū)動激勵器能夠移動的機器人中,準備了用于識別圖像的自組織映射(以下稱為視覺SOM)和用于驅(qū)動激勵器的自組織映射(或用于產(chǎn)生一個參數(shù)從而驅(qū)動該激勵器)(以下稱為運動SOM)。使用視覺SOM識別用戶的運動。使用運動SOM驅(qū)動激勵器,和使用視覺SOM識別機器人的作為結(jié)果的運動。建立視覺SOM和運動SOM之間的映射以便于使用視覺SOM識別用戶的運動和使用運動SOM通過驅(qū)動激勵器創(chuàng)建與使用視覺SOM識別的運動類似的運動。通過在合適的位置配置一面鏡子使用視覺SOM和觀察鏡子中機器人的圖像來識別機器人自己的運動。
在通過驅(qū)動激勵器能夠移動的機器人的一個可選的實例中,準備了聽覺SOM和運動SOM。使用聽覺SOM識別出由用戶通過播放音樂器具創(chuàng)建的音樂聲音的曲調(diào)。使用運動SOM驅(qū)動激勵器來播放音樂器具,和使用聽覺SOM識別出由機器人創(chuàng)建的作為結(jié)果的曲調(diào)。聽覺SOM和運動SOM之間的映射被建立起來從而可以使用聽覺SOM識別出由用戶通過播放音樂器具創(chuàng)建的曲調(diào)和使用運動SOM通過驅(qū)動激勵器來創(chuàng)建與使用聽覺SOM識別出的曲調(diào)類似的曲調(diào)。
這種情況下,除了聽覺SOM和運動SOM之外,可以進一步準備視覺SOM以便于可以使用視覺SOM識別用戶播放音樂器具的運動。在該機器人中,可以建立視覺SOM和運動SOM之間的映射以便于可以使用視覺SOM識別出使用運動SOM通過驅(qū)動激勵器創(chuàng)建的機器人的運動,和使用運動SOM通過驅(qū)動激勵器創(chuàng)建與使用視覺SOM識別出的用戶的運動類似的機器人的運動。在該機器人中,具有與聽覺SOM的優(yōu)勝者節(jié)點的最大連接權(quán)重的運動SOM的節(jié)點不必與具有與視覺SOM的優(yōu)勝者節(jié)點的最大連接權(quán)重的運動SOM的節(jié)點相同。在這樣一種情況下,需要確定運動SOM中的哪一個節(jié)點應(yīng)該被用作產(chǎn)生節(jié)點來產(chǎn)生用于驅(qū)動激勵器的參數(shù)(第二參數(shù))。例如,進行確定以便與聽覺SOM優(yōu)勝者節(jié)點的連接權(quán)重和與視覺SOM優(yōu)勝者節(jié)點的連接權(quán)重之和為最大的運動SOM節(jié)點被用作產(chǎn)生節(jié)點。
應(yīng)當理解,本領(lǐng)域的技術(shù)人員可以根據(jù)設(shè)計需要和其它因素在所附權(quán)利要求書或其等價物的范圍之內(nèi)作出各種修改、組合、子組合以及改變。
權(quán)利要求
1.一種信息處理裝置,包括連接網(wǎng)絡(luò)存儲裝置,用于存儲包括有第一自組織映射和第二自組織映射的連接網(wǎng)絡(luò),其中的每個自組織映射都包括多個節(jié)點,以及該連接網(wǎng)絡(luò)還包括表示第一自組織映射和第二自組織映射之間的節(jié)點的連接強度的連接權(quán)重;第一學習裝置,用于基于從觀察裝置輸出的觀察值中提取的第一參數(shù)學習第一自組織映射,所述觀察裝置觀察外界和所述輸出觀察值;優(yōu)勝者節(jié)點確定裝置,用于檢測具有與在第一自組織映射中的節(jié)點上觀察到的第一參數(shù)的最大似然性的節(jié)點,以及將所檢測到的節(jié)點確定為優(yōu)勝者節(jié)點;搜索裝置,用于在第二自組織映射內(nèi)搜索具有與該優(yōu)勝者節(jié)點的最高連接強度的節(jié)點和將所檢測到的節(jié)點用作產(chǎn)生節(jié)點;參數(shù)產(chǎn)生裝置,用于從產(chǎn)生節(jié)點產(chǎn)生第二參數(shù);修改裝置,用于修改從產(chǎn)生節(jié)點產(chǎn)生的第二參數(shù);確定裝置,用于確定進行第二參數(shù)最終修改的最終條件是否被滿足,其中根據(jù)優(yōu)勝者節(jié)點執(zhí)行修改,和優(yōu)勝者節(jié)點是根據(jù)當驅(qū)動裝置根據(jù)第二參數(shù)執(zhí)行驅(qū)動操作時由所述觀察裝置觀察到的值確定的;第一連接權(quán)重修改裝置,用于在滿足最終條件時修改連接權(quán)重;第二連接權(quán)重修改裝置,用于當用戶對在所述驅(qū)動裝置執(zhí)行的驅(qū)動結(jié)果的評價是由用戶作為獎勵提供的時候,修改所述連接權(quán)重;第二學習裝置,基于滿足最終條件時所獲得的第二參數(shù)對第二自組織映射執(zhí)行學習。
2.根據(jù)權(quán)利要求1的信息處理裝置,其中所述獎勵是肯定的獎勵或否定的獎勵;和第二連接權(quán)重修改裝置執(zhí)行修改以便于當用戶提供肯定的獎勵時增加連接權(quán)重,而當用戶提供否定的獎勵時減少連接權(quán)重。
3.根據(jù)權(quán)利要求2的信息處理裝置,其中,第二連接權(quán)重修改裝置修改連接權(quán)重以便于通過第二連接權(quán)重修改裝置增加或減少連接權(quán)重的比率大于通過第一連接權(quán)重修改裝置增加或減少連接權(quán)重的比率。
4.根據(jù)權(quán)利要求2的信息處理裝置,其中,第二連接權(quán)重修改裝置根據(jù)已經(jīng)修改的連接權(quán)重的次數(shù),通過改變增加或減少連接權(quán)重的比率來修改連接權(quán)重。
5.一種信息處理方法,包括步驟基于從觀察裝置輸出的觀察值中提取的第一參數(shù)學習存儲在連接網(wǎng)絡(luò)存儲裝置中的第一自組織映射,所述觀察裝置觀察外界和輸出觀察值,所述連接網(wǎng)絡(luò)存儲裝置存儲包括有第一自組織映射和第二自組織映射的連接網(wǎng)絡(luò),其中每個自組織映射都包括多個節(jié)點,以及該網(wǎng)絡(luò)還包括表示第一自組織映射和第二自組織映射之間的節(jié)點的連接強度的連接權(quán)重;通過檢測具有在第一自組織映射中的節(jié)點上觀察到的第一參數(shù)的最大似然性的節(jié)點來確定優(yōu)勝者節(jié)點,和確定所檢測到的節(jié)點為優(yōu)勝者節(jié)點;在第二自組織映射內(nèi)搜索具有與該優(yōu)勝者節(jié)點的最高連接強度的節(jié)點和將所檢測到的節(jié)點用作產(chǎn)生節(jié)點;從產(chǎn)生節(jié)點產(chǎn)生第二參數(shù);修改從所述產(chǎn)生節(jié)點產(chǎn)生的第二參數(shù);確定進行第二參數(shù)最終修改的最終條件是否被滿足,其中,根據(jù)優(yōu)勝者節(jié)點執(zhí)行修改,和優(yōu)勝者節(jié)點是根據(jù)當驅(qū)動裝置根據(jù)第二參數(shù)執(zhí)行驅(qū)動操作時由所述觀察裝置觀察到的值來確定的;在滿足最終條件時修改連接權(quán)重;當用戶對在所述驅(qū)動裝置執(zhí)行的驅(qū)動結(jié)果的評價是由用戶作為獎勵提供的時候,修改所述連接權(quán)重;和基于滿足最終條件時所獲得的第二參數(shù)學習第二自組織映射。
6.一種由計算機執(zhí)行的程序,該程序包括步驟基于從觀察裝置輸出的觀察值中提取的第一參數(shù)學習存儲在連接網(wǎng)絡(luò)存儲裝置中的第一自組織映射,所述觀察裝置觀察外界和輸出觀察值,所述連接網(wǎng)絡(luò)存儲裝置存儲包括有第一自組織映射和第二自組織映射的連接網(wǎng)絡(luò),其中每個自組織映射都包括多個節(jié)點,以及該網(wǎng)絡(luò)還包括表示第一自組織映射和第二自組織映射之間的節(jié)點的連接強度的連接權(quán)重;通過檢測具有在第一自組織映射中的節(jié)點上觀察到的第一參數(shù)的最大似然性的節(jié)點來確定優(yōu)勝者節(jié)點,和確定所檢測到的節(jié)點為優(yōu)勝者節(jié)點;在第二自組織映射內(nèi)搜索具有與該優(yōu)勝者節(jié)點的最高連接強度的節(jié)點和將所檢測到的節(jié)點用作產(chǎn)生節(jié)點;從產(chǎn)生節(jié)點產(chǎn)生第二參數(shù);修改從所述產(chǎn)生節(jié)點產(chǎn)生的第二參數(shù);確定進行第二參數(shù)最終修改的最終條件是否被滿足,其中,根據(jù)優(yōu)勝者節(jié)點執(zhí)行修改,和優(yōu)勝者節(jié)點是根據(jù)當驅(qū)動裝置根據(jù)第二參數(shù)執(zhí)行驅(qū)動操作時由所述觀察裝置觀察到的值來確定的;在滿足最終條件時修改連接權(quán)重;當用戶對在所述驅(qū)動裝置執(zhí)行的驅(qū)動結(jié)果的評價是由用戶作為獎勵提供的時候,修改所述連接權(quán)重;和基于滿足最終條件時所獲得的第二參數(shù)學習第二自組織映射。
7.一種信息處理裝置,包括連接網(wǎng)絡(luò)存儲單元,適用于存儲包括有第一自組織映射和第二自組織映射的連接網(wǎng)絡(luò),其中每個自組織映射都包括多個節(jié)點,以及該網(wǎng)絡(luò)還包括表示第一自組織映射和第二自組織映射之間的節(jié)點的連接強度的連接權(quán)重;第一學習單元,適用于基于從觀察單元輸出的觀察值中提取的第一參數(shù)學習第一自組織映射,所述觀察單元適用于觀察外界和輸出觀察值;優(yōu)勝者節(jié)點確定單元,適用于檢測具有與在第一自組織映射中的節(jié)點上觀察到的第一參數(shù)的最大似然性的節(jié)點,以及確定所檢測到的節(jié)點為優(yōu)勝者節(jié)點;搜索單元,適用于在第二自組織映射內(nèi)搜索具有與該優(yōu)勝者節(jié)點的最高連接強度的節(jié)點和將所檢測到的節(jié)點用作產(chǎn)生節(jié)點;參數(shù)產(chǎn)生單元,適用于從產(chǎn)生節(jié)點產(chǎn)生第二參數(shù);修改單元,適用于修改從產(chǎn)生節(jié)點產(chǎn)生的第二參數(shù);確定單元,適用于確定進行第二參數(shù)最終修改的最終條件是否被滿足于,其中,根據(jù)優(yōu)勝者節(jié)點執(zhí)行修改,和優(yōu)勝者節(jié)點是根據(jù)當驅(qū)動單元根據(jù)第二參數(shù)執(zhí)行驅(qū)動操作時由所述觀察單元觀察到的值來確定的;第一連接權(quán)重修改單元,適用于在滿足最終條件時修改連接權(quán)重;第二連接權(quán)重修改單元,適用于當用戶對在所述驅(qū)動單元執(zhí)行的驅(qū)動結(jié)果的評價是由用戶作為獎勵提供的時候,修改所述連接權(quán)重;第二學習單元,適用于基于當最終條件被滿足時所獲得的第二參數(shù)學習第二自組織映射。
全文摘要
一種信息處理裝置,包括第一學習單元,適用于基于從觀察值中提取的第一參數(shù)學習第一SOM(自組織映射);優(yōu)勝者節(jié)點確定單元,適用于確定第一SOM上的優(yōu)勝者節(jié)點;搜索單元,適用于搜索具有與優(yōu)勝者節(jié)點的最高連接強度的第二SOM上的產(chǎn)生節(jié)點;參數(shù)產(chǎn)生單元,適用于從產(chǎn)生節(jié)點產(chǎn)生第二參數(shù);修改單元,適用于修改從產(chǎn)生節(jié)點產(chǎn)生的第二參數(shù);第一連接權(quán)重修改單元,適用于在滿足最終條件時修改連接權(quán)重;第二連接權(quán)重修改單元,適用于根據(jù)用戶作出的評價修改所述連接權(quán)重;和第二學習單元,適用于基于滿足最終條件時所獲得的第二參數(shù)對第二SOM執(zhí)行學習。
文檔編號G10L13/00GK1855224SQ20061008985
公開日2006年11月1日 申請日期2006年4月5日 優(yōu)先權(quán)日2005年4月5日
發(fā)明者青山一美, 南野活樹, 下村秀樹 申請人:索尼株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1