專利名稱::學習設備、學習方法和程序的制作方法
技術領域:
:本發(fā)明涉及學習設備、學習方法和程序。更具體而言,本發(fā)明涉及可用來高效地學習動態(tài)狀況(dynamics)的學習設備、學習方法和程序。
背景技術:
:已知機器人的動作(運動)可被描述為由時間演化規(guī)則定義的動態(tài)系統(tǒng),并且各種動作的動態(tài)系統(tǒng)可由特定的吸引子動態(tài)狀況實現(xiàn)。例如,雙足機器人(例如人形機器人)的行走運動可被描述為極限周期動態(tài)狀況,其特征在于系統(tǒng)的運動狀態(tài)從各種初始狀態(tài)收斂到特定的周期性軌道。例如在以下文獻中對其進行了描述G.Taga,1998,“Self-organizedcontrolofbipedallocomotionbyneuraloscillatorsinunpredictableenvironment”,BiologicalCybernetics,65,147-159以及GentaroTaga,“Noutoshintainodoutekidezain-UndouChikakunohisenkeirikigakukeitohattatsu”(大腦和身體的動態(tài)設計-非線性動態(tài)系統(tǒng)以及運動和感知的開發(fā)),KaneboShobo。此外,其中機器人向某個對象伸出其手臂的伸夠(reaching)操作可被描述為固定點動態(tài)狀況,其特征在于各種初始狀態(tài)收斂到特定的固定點。此外,還假定任何運動都可由離散運動和循環(huán)運動來實現(xiàn),其中離散運動可由固定點動態(tài)狀況實現(xiàn),循環(huán)運動可由極限周期動態(tài)狀況實現(xiàn)。為了根據(jù)吸引子動態(tài)狀況控制機器人的動作(運動)而要解決的問題包括根據(jù)任務設計吸引子動態(tài)狀況,并且基于從傳感器輸入獲得的信息根據(jù)吸引子動態(tài)狀況生成適當?shù)碾姍C輸出。為此,針對機器人的動作的輸出應當以使吸引子動態(tài)狀況與環(huán)境持續(xù)地交互的方式來生成。已經(jīng)提出了用于學習吸引子動態(tài)狀況而不是手工設計吸引子動態(tài)狀況的方法。這些方法中的一種使用遞歸神經(jīng)網(wǎng)絡(以下稱之為RNN)。RNN包括經(jīng)由反饋環(huán)連接到網(wǎng)絡的上下文單元。已知理論上任意動態(tài)系統(tǒng)都可通過保持上下文單元中的內(nèi)部狀態(tài)來近似。但是,在由一個緊密連接的網(wǎng)絡模塊構成的學習模型中,當大量動態(tài)狀況被學習以便學習大尺度的動作時,在要存儲的動態(tài)狀況之間發(fā)生了相當大的干擾,從而使得學習變得困難??紤]到上述問題,已經(jīng)提出了若干種使用模塊化體系結構的學習模型。在模塊化體系結構中,多個網(wǎng)絡模塊被組合以形成單個學習模型。在模塊化體系結構中,原則上,通過增大模塊的數(shù)目,很容易就可以增加可存儲的動態(tài)狀況。但是,對將要用于給定學習樣本的學習的模塊的選擇存在問題。取決于模塊選擇方法,學習方法可被分類為受監(jiān)督學習和無監(jiān)督學習。在受監(jiān)督學習中,向模塊的學習樣本分配是手工確定的。另一方面,在無監(jiān)督學習中,向模塊的學習樣本分配是通過學習模型自動確定的。為了使機器人或系統(tǒng)自動執(zhí)行學習,無監(jiān)督學習將被用于模塊的學習。作為一種用于通過無監(jiān)督學習來學習模塊的方法,已經(jīng)提出了一種被稱為RNN專家混合的學習模型。RNN專家混合例如在日本未經(jīng)實審專利申請公布No.11-126198中有所描述。根據(jù)該學習模型,多個RNN模塊的輸出被門控機制集成以確定最終輸出,并且個體RNN通過根據(jù)最大似然估計調(diào)節(jié)門控來進行操作,以使最終輸出的性能達到最大。但是,根據(jù)基于全局優(yōu)化的方法,當模塊數(shù)目變得很大時,學習就變得困難了。另一方面,在諸如自組織圖(以下稱之為SOM)或神經(jīng)氣體之類的用于學習向量模式的類別的方法中,不使用基于全局優(yōu)化的學習規(guī)則,從而不確保最優(yōu)性。但是,已知這些方法允許了通過無監(jiān)督學習以自組織方式學習適當?shù)念悇e結構。利用這些方法,即使當模塊數(shù)目巨大時,實際上也可能進行學習。SOM例如在T.Kohonen,“Jikososhikihamappu”(自組織圖),Springer-VerlagTokyo中有所描述。神經(jīng)氣體例如在T.M.Martinetz,S.G.Berkovich,K.J.Schulten,““Neural-Gas”NetworkforVectorQuantizationanditsApplicationtoTime-SeriesPrediction”,IEEETrans,NeuralNetworks,VOL.4,No.4,pp.558-569,1993中有所描述。
發(fā)明內(nèi)容在日本專利申請No.2004-353832中,本申請的受讓人提出了一種用于學習時序模式而不是向量模式的模型。但是,尚未提出一種用于高效地學習動態(tài)狀況的方法。需要高效地學習動態(tài)狀況。根據(jù)本發(fā)明的一個實施例,提供了一種學習設備,包括存儲裝置,用于存儲由多個各自保存動態(tài)狀況的節(jié)點形成的網(wǎng)絡;學習裝置,用于基于觀察到的時序數(shù)據(jù)以自組織方式學習網(wǎng)絡的動態(tài)狀況;獲勝節(jié)點確定裝置,用于確定獲勝節(jié)點,該獲勝節(jié)點是具有與時序數(shù)據(jù)最匹配的動態(tài)狀況的節(jié)點;以及權重確定裝置,用于根據(jù)個體節(jié)點與獲勝節(jié)點的距離,為由該個體節(jié)點保存的動態(tài)狀況確定學習權重。學習裝置按照與學習權重相對應的程度以自組織方式學習網(wǎng)絡的動態(tài)狀況。動態(tài)狀況可由具有內(nèi)部狀態(tài)量的動態(tài)系統(tǒng)近似模型來模擬。動態(tài)狀況可由遞歸神經(jīng)網(wǎng)絡來模擬。學習裝置可通過基于反復計算的梯度方法來學習網(wǎng)絡的動態(tài)狀況,其中反復計算的迭代次數(shù)或者梯度的量值是根據(jù)學習權重來確定的。根據(jù)本發(fā)明的另一實施例,提供了一種學習方法,包括以下步驟確定保存動態(tài)狀況并形成網(wǎng)絡的多個節(jié)點中的獲勝節(jié)點,該獲勝節(jié)點是具有與觀察到的時序數(shù)據(jù)最匹配的動態(tài)狀況的節(jié)點;根據(jù)個體節(jié)點與獲勝節(jié)點的距離,為由該個體節(jié)點保存的動態(tài)狀況確定學習權重;以及按照與學習權重相對應的程度基于時序數(shù)據(jù)以自組織方式學習網(wǎng)絡的動態(tài)狀況。根據(jù)本發(fā)明的另一實施例,提供了一種用于使計算機執(zhí)行處理的計算機程序,該處理包括以下步驟確定保存動態(tài)狀況并形成網(wǎng)絡的多個節(jié)點中的獲勝節(jié)點,該獲勝節(jié)點是具有與觀察到的時序數(shù)據(jù)最匹配的動態(tài)狀況的節(jié)點;根據(jù)個體節(jié)點與獲勝節(jié)點的距離,為由該個體節(jié)點保存的動態(tài)狀況確定學習權重;以及按照與學習權重相對應的程度基于時序數(shù)據(jù)以自組織方式學習網(wǎng)絡的動態(tài)狀況。根據(jù)本發(fā)明的這些實施例,保存動態(tài)狀況并形成網(wǎng)絡的多個節(jié)點中的獲勝節(jié)點被確定,該獲勝節(jié)點是具有與觀察到的時序數(shù)據(jù)最匹配的動態(tài)狀況的節(jié)點;針對由個體節(jié)點保存的動態(tài)狀況的學習權重被根據(jù)該個體節(jié)點與獲勝節(jié)點的距離而確定;并且,網(wǎng)絡的動態(tài)狀況被按照與學習權重相對應的程度基于時序數(shù)據(jù)以自組織方式來學習。因此,能夠高效地學習動態(tài)狀況。圖1是示出根據(jù)本發(fā)明實施例的數(shù)據(jù)處理設備的示例性配置的框圖;圖2是示出動態(tài)狀況存儲網(wǎng)絡的示例的圖;圖3是示出節(jié)點示例的圖;圖4是示出學習單元的詳細配置的示例的框圖;圖5A和5B是示出與獲勝節(jié)點的距離和學習權重之間的關系的圖;圖6是學習過程的流程圖;圖7是示出識別單元和生成單元的詳細配置的示例的框圖;圖8是示出根據(jù)本發(fā)明實施例的計算機的示例性配置的框圖。具體實施例方式在描述本發(fā)明的實施例之前,下面將描述本發(fā)明的特征和在本說明書中描述或在附圖中示出的實施例之間的對應關系的示例。本描述的意圖在于確保支持本發(fā)明的實施例在本說明書中有所描述或在附圖中示出。從而,即使在本說明書中描述或在附圖中示出的任何實施例沒有被描述為與本發(fā)明的某些特征相對應,也不一定意味著該實施例不對應于這些特征。相反,即使任何實施例在這里被描述為對應于某些特征,也不一定意味著該實施例不對應于其他特征。根據(jù)本發(fā)明實施例的學習設備包括存儲裝置(例如圖1所示的網(wǎng)絡存儲單元1-5),用于存儲由多個各自保存動態(tài)狀況的節(jié)點形成的網(wǎng)絡(例如動態(tài)狀況存儲網(wǎng)絡);學習裝置(例如圖1所示的學習單元1-4),用于基于觀察到的時序數(shù)據(jù)以自組織方式學習網(wǎng)絡的動態(tài)狀況;獲勝節(jié)點確定裝置(例如圖4所示的獲勝節(jié)點確定器7-2),用于確定獲勝節(jié)點,該獲勝節(jié)點是具有與時序數(shù)據(jù)最匹配的動態(tài)狀況的節(jié)點;以及權重確定裝置(例如圖4所示的學習權重確定器7-3),用于根據(jù)個體節(jié)點與獲勝節(jié)點的距離,為由該個體節(jié)點保存的動態(tài)狀況確定學習權重。學習裝置按照與學習權重相對應的程度以自組織方式學習網(wǎng)絡的動態(tài)狀況(例如圖6所示的步驟S8)。根據(jù)本發(fā)明實施例的學習方法或程序包括以下步驟確定保存動態(tài)狀況并形成網(wǎng)絡(例如動態(tài)狀況存儲網(wǎng)絡)的多個節(jié)點中的獲勝節(jié)點,該獲勝節(jié)點是具有與觀察到的時序數(shù)據(jù)最匹配的動態(tài)狀況的節(jié)點(例如圖6所示的步驟S5);根據(jù)個體節(jié)點與獲勝節(jié)點的距離,為由該個體節(jié)點保存的動態(tài)狀況確定學習權重(例如圖6所示的步驟S6);以及按照與學習權重相對應的程度基于時序數(shù)據(jù)以自組織方式學習網(wǎng)絡的動態(tài)狀況(例如圖6的步驟S8)。現(xiàn)在,將參考附圖詳細描述本發(fā)明的特定實施例。圖1是示出根據(jù)本發(fā)明實施例的數(shù)據(jù)處理設備的示例性配置的框圖。參考圖1,數(shù)據(jù)處理設備包括網(wǎng)絡存儲單元1-5,其存儲一個動態(tài)狀況存儲網(wǎng)絡,該動態(tài)狀況存儲網(wǎng)絡包括各自由一個具有內(nèi)部狀態(tài)量的動態(tài)系統(tǒng)近似模型實現(xiàn)的節(jié)點;以及學習單元1-4,其以自組織方式更新動態(tài)狀況存儲網(wǎng)絡的參數(shù)。動態(tài)狀況存儲網(wǎng)絡的每個節(jié)點保存代表時序數(shù)據(jù)的動態(tài)特性的動態(tài)狀況。由動態(tài)狀況存儲網(wǎng)絡的每個節(jié)點保存的動態(tài)狀況由學習單元14所更新的參數(shù)來定義,并且被用于時序數(shù)據(jù)的識別和生成。圖1所示的數(shù)據(jù)處理設備例如用于識別或生成用于機器人等的控制信號。具體而言,數(shù)據(jù)處理設備被用于學習、識別或生成被輸入到或輸出自自治系統(tǒng)、自治機器人等中的電機的信號。在圖1所示的數(shù)據(jù)處理設備中,輸入到數(shù)據(jù)處理設備的信號和從數(shù)據(jù)處理設備輸出的信號都被輸入到信號輸入單元1-2,作為觀察信號1-1。觀察信號1-1例如包括音頻或圖像信號、代表發(fā)光二極管(LED)的亮度級別的信號、代表電機的旋轉(zhuǎn)角或角速度的信號,等等。信號輸入單元1-2將與輸入觀察信號1-1相對應的電信號輸出到特征提取器1-3。更具體而言,當觀察信號1-1是音頻信號時,信號輸入單元1-2例如對應于麥克風。當觀察信號1-1是圖像信號時,信號輸入單元1-2例如對應于照相機。當觀察信號1-1是代表電機的旋轉(zhuǎn)角或角速度的信號時,信號輸入單元1-2例如對應于用于測量電機的旋轉(zhuǎn)角或角速度的設備。以下將把從信號輸入單元1-2輸出的信號以及輸入到信號輸入單元1-2的信號稱為觀察信號1-1。觀察信號1-1可以是靜止信號,也可以是時變的非靜止信號。此外,在下面的描述中,機器人系統(tǒng)中的傳感器/電機信號將主要被用作觀察信號1-1的示例。傳感器/電機信號是具有例如代表從傳感器輸出的信號或輸入到電機以控制電機的控制信號的分量的矢量。很明顯,觀察信號1-1不限于傳感器/電機信號。此外,信號輸入單元1-2包括片段檢測器之類的,其輸出劃分為預定的片段的傳感器/電機信號。分段的方式并沒有具體限制,只要傳感器/電機信號是以劃分為適當長度的形式輸出的即可。從而,根據(jù)輸入傳感器/電機信號以最優(yōu)方式被劃分為適當長度的傳感器/電機信號被從信號輸入單元1-2輸出,作為觀察信號1-1。特征提取器1-3從輸出自信號輸入單元1-2的觀察信號1-1中提取時序上的特征。例如,特征提取器1-3對作為一類傳感器信號的音頻信號執(zhí)行諸如按恒定時間間隔的頻率分析,從而提取時序上的特征,例如梅爾倒譜(mel-cepstrum)。梅爾倒譜是廣泛用于語音識別等中的一類特征。特征提取器1-3將通過從觀察信號1-1中提取時序上的特征而獲得的時序特征數(shù)據(jù)(以下稱之為時序數(shù)據(jù))提供給學習單元1-4、識別單元1-6和生成單元1-9。學習單元1-4利用從特征提取器1-3提供的時序數(shù)據(jù)按照預定的程度學習代表時序數(shù)據(jù)中的時間變化的特征的動態(tài)狀況。更具體而言,學習單元1-4按照預定的程度更新保存動態(tài)狀況的動態(tài)狀況存儲網(wǎng)絡的參數(shù)。正如后面將詳細描述的,基本上,當未被分配以標簽的時序數(shù)據(jù)被相繼提供給學習單元1-4時,學習單元1-4執(zhí)行無監(jiān)督學習,以便時序數(shù)據(jù)中的特征動態(tài)狀況被以自組織方式獲得。結果,存儲在網(wǎng)絡存儲單元1-5中的動態(tài)狀況存儲網(wǎng)絡高效地保存了代表性的動態(tài)狀況。動態(tài)狀況可在識別單元1-6或生成單元1-9所需的任何時間被使用。動態(tài)狀況代表時變動態(tài)系統(tǒng),并且例如可由特定的函數(shù)來表示。動態(tài)狀況存儲網(wǎng)絡保存代表時序數(shù)據(jù)中的時間變化的特征的動態(tài)狀況。識別單元1-6參考通過已經(jīng)執(zhí)行的學習而保存在動態(tài)狀況存儲網(wǎng)絡中的動態(tài)狀況,確定與提供自特征提取器1-3的時序數(shù)據(jù)最接近的動態(tài)狀況。然后,識別單元1-6輸出結果,作為識別結果1-7。生成單元1-9可根據(jù)需要從保存在動態(tài)狀況存儲網(wǎng)絡中的動態(tài)狀況生成時序數(shù)據(jù)。生成單元1-9執(zhí)行生成過程來生成時序數(shù)據(jù)。更具體而言,生成單元1-9獲得指定哪些動態(tài)狀況將被用于生成時序數(shù)據(jù)的控制信號1-8。生成單元1-9基于控制信號1-8、提供自特征提取器1-3的時序數(shù)據(jù)以及動態(tài)狀況存儲網(wǎng)絡,從指定的動態(tài)狀況生成時序數(shù)據(jù)。然后,生成單元1-9輸出時序數(shù)據(jù),作為生成結果1-10。內(nèi)部狀態(tài)存儲單元1-11保存動態(tài)狀況存儲網(wǎng)絡的每個節(jié)點的內(nèi)部狀態(tài)量。例如,存儲在內(nèi)部狀態(tài)存儲單元1-11中的內(nèi)部狀態(tài)量被識別單元1-6所更新,并且被生成單元1-9所使用。圖2示出存儲在圖1所示的網(wǎng)絡存儲單元1-5中的動態(tài)狀況存儲網(wǎng)絡5-1的示例。圖2示出了動態(tài)狀況存儲網(wǎng)絡5-1,其中所有節(jié)點5-2至5-10都被二維地布置,在垂直相鄰節(jié)點和水平相鄰節(jié)點之間提供了鏈接。以下將把節(jié)點5-2至5-10統(tǒng)稱為節(jié)點5,除非應當區(qū)分個體節(jié)點5-2至5-10。鏈接被用于限定節(jié)點5的空間布置。即,圖2所示的動態(tài)狀況存儲網(wǎng)絡5-1是具有二維節(jié)點布置的動態(tài)狀況存儲網(wǎng)絡的示例。如圖2所示,節(jié)點5之間的空間距離是根據(jù)由鏈接限定的節(jié)點5的空間布置來確定的。例如,在圖2所示的示例中,對于主題節(jié)點5,直接連接到主題節(jié)點5的節(jié)點,即鄰近主題節(jié)點5的節(jié)點,具有與主題節(jié)點的最短,并且對于可通過從相鄰節(jié)點按順序循著更多的鏈接到達的節(jié)點5,與主題節(jié)點的距離增大。節(jié)點5的空間布置的限定可與圖2所示的示例不同,這取決于鏈接的配置,并且通過使用鏈接可任意地限定空間布置。圖3是示出節(jié)點5的細節(jié)的圖。節(jié)點5包括具有內(nèi)部狀態(tài)量的識別單元1-6,以及存儲代表對動態(tài)系統(tǒng)近似模型6-1的參數(shù)的學習程度的信息(以下稱之為程度信息)的學習程度存儲單元6-2。例如,RNN可被用作動態(tài)系統(tǒng)近似模型6-1。在這種情況下,作為內(nèi)部狀態(tài)量,上下文被從RNN的輸出層反饋到輸入層。學習程度存儲單元6-2是網(wǎng)絡存儲單元1-5(圖1)的存儲區(qū)域的一部分。在圖3中,可以使用在三層神經(jīng)網(wǎng)絡(NN)中提供從輸出層到輸入層的反饋環(huán)的RNN作為動態(tài)系統(tǒng)近似模型6-1。利用該RNN,執(zhí)行學習以基于時序數(shù)據(jù)中時刻T的狀態(tài)向量XT的輸入來學習預測并輸出時刻T+1的狀態(tài)向量XT+1。即,可通過預測學習來學習時序數(shù)據(jù)的時間演化規(guī)則。作為估計具有內(nèi)部狀態(tài)量的動態(tài)系統(tǒng)近似模型(例如RNN)中的參數(shù)的方法,通常使用通過時間的后向傳播(back-propagationthroughtime,BPTT)。BPTT是基于最速下降方法學習方法。BPTT例如在以下文獻中有所描述D.E.Rumelhart,G.E.Hinton和R.E.Williams,1986,“Learninginternalrepresentationsbyerrorpropagation”;D.E.Rumelhart和J.McClelland,“Paralleldistributedprocessing”,pp.318-364,Cambridge,MAMITPress;以及R.J.Williams和D.Zipser,“Alearningalgorithmforcontinuallyrunningfullyrecurrentneuralnetworks”,NeuralComputation,1270-280,1989。動態(tài)系統(tǒng)近似模型6-1按照由存儲在學習程度存儲單元6-2中的程度信息所表示的程度,學習代表學習數(shù)據(jù)(即從學習單元1-4提供來的時序數(shù)據(jù))的時序模式的動態(tài)狀況。由學習單元1-4執(zhí)行的學習是在線學習。即,每當觀察信號1-1被輸入時,學習單元1-4就利用觀察信號1-1作為學習數(shù)據(jù)漸漸地更新動態(tài)系統(tǒng)近似模型6-1的參數(shù)。學習程度存儲單元6-2存儲從學習單元1-4提供的程度信息。從而,學習數(shù)據(jù)對動態(tài)系統(tǒng)近似模型6-1的參數(shù)的影響程度得以調(diào)節(jié)。如上所述,學習單元1-4在根據(jù)存儲在學習程度存儲單元6-2中的程度信息調(diào)節(jié)學習程度的同時,學習學習數(shù)據(jù)的時序模式。接下來,將描述學習單元1-4對參數(shù)的更新。首先,將簡要描述用于估計參數(shù)的通過時間的后向傳播(BPTT)方法所基于的后向傳播方法。這里假定S形函數(shù)f(x)被用于除動態(tài)系統(tǒng)近似模型6-1的輸入層中的單元之外的其他單元?,F(xiàn)在,令輸入到單元的數(shù)據(jù)Y被表示為y0,y1,...,yn-1,并且預期作為單元輸出的預期數(shù)據(jù)R被表示為r0,r1,...,rm-1。n表示輸入層中的單元的數(shù)目,m表示輸出層中的單元的數(shù)目。首先,從輸入層到輸出層的單元j的輸出數(shù)據(jù)oj根據(jù)下面的方程(1)來計算oj=f(Σi=1n-1wijoi)...(1)]]>在方程(1)中,oi表示單元i的輸出數(shù)據(jù)。wij表示分配給從單元i到單元j的連接的權重,它是動態(tài)系統(tǒng)近似模型6-1的一個參數(shù)。然后,基于根據(jù)方程(1)計算的輸出數(shù)據(jù)oj,根據(jù)下面的方程(2)從輸出層向輸入層更新參數(shù)wijwij(n+1)=wij(n)+ηδjoi…(2)在方程(2)中,wij(n)表示在第n個時機更新的參數(shù)wij,η表示用于調(diào)節(jié)參數(shù)wij的變化量的增益參數(shù)。δj表示單元j的誤差參數(shù)。當單元j是輸出層中的單元時,誤差參數(shù)δj是基于預期數(shù)據(jù)rk(k是k=0,1,..,m-1之間的值)和輸出數(shù)據(jù)oj來計算的。當單元j是隱藏層中的單元時,δj是通過在作為隱藏層的上層的輸出層中傳播誤差來計算的。參數(shù)wij被根據(jù)方程(2)反復更新,直到輸出oj變得足夠接近預期數(shù)據(jù)rk。后向傳播方法例如在RBeale和T.Jackson,“Nyuuralkonpyuutingunyuumon”(神經(jīng)計算導言),Kaibundo中有所描述。上述后向傳播方法是基于最速下降方法的學習方法。在該后向傳播方法中,學習是通過基于反復計算的梯度方法來執(zhí)行的。BPTT方法是后向傳播方法到遞歸神經(jīng)網(wǎng)絡的擴展。BPTT方法與后向傳播方法的類似之處在于它是基于最速下降方法的學習方法,并且參數(shù)被反復更新直到單元的輸出變得足夠接近預期輸出,即學習是通過基于反復計算的梯度方法來執(zhí)行。此外,在BPTT方法中,與后向傳播方法類似,用于調(diào)節(jié)參數(shù)變化量的增益參數(shù)η被用在用于更新參數(shù)的方程中。增益參數(shù)η幫助調(diào)節(jié)梯度方法中的變化的步長大小,即梯度方法中的梯度的值。在后向傳播方法和BPTT方法,一般來說,并不確保學習的結果是收斂到全局最優(yōu)解答。從而,存在學習的結果是收斂到局部最優(yōu)解答的風險。為了避免該問題,例如,在已提出的一種方法中,增益參數(shù)η最初被選擇為一個較大的值,并且被逐漸減小。即,增益參數(shù)η不僅幫助調(diào)節(jié)參數(shù)變化量,還幫助在基于最速下降方法的學習中實現(xiàn)穩(wěn)定地收斂到全局最優(yōu)解答。利用增益參數(shù)η的前一角色,可以調(diào)節(jié)學習數(shù)據(jù)的影響程度。此外,考慮反復計算中的迭代次數(shù)N,學習數(shù)據(jù)的影響程度隨著迭代次數(shù)N增大而增大,而學習數(shù)據(jù)的影響程度隨著迭代次數(shù)N減小而減小。從而,可以利用迭代次數(shù)N來調(diào)節(jié)學習數(shù)據(jù)的影響程度。如上所述,可以利用增益參數(shù)η或迭代次數(shù)N來調(diào)節(jié)學習數(shù)據(jù)的影響程度,即學習程度。從而,增益參數(shù)η或迭代次數(shù)N被用作存儲在學習程度存儲單元6-2中的程度信息。圖4是示出圖1所示的學習單元1-4的詳細配置的示例的框圖。學習單元1-4包括得分計算器7-1、獲勝節(jié)點確定器7-2、學習權重確定器7-3和參數(shù)更新器7-4。學習單元1-4接收來自圖1所示的特征提取器1-3的時序數(shù)據(jù)的輸入,并且時序數(shù)據(jù)被提供給得分計算器7-1和參數(shù)更新器7-4,作為學習數(shù)據(jù)。得分計算器7-1在更新內(nèi)部狀態(tài)量的同時,為存儲在網(wǎng)絡存儲單元1-5中的動態(tài)狀況存儲網(wǎng)絡5-1中包括的每個節(jié)點5的動態(tài)系統(tǒng)近似模型6-1,計算關于提供自特征提取器1-3的學習數(shù)據(jù)的得分。更具體而言,得分計算器7-1為每個節(jié)點5計算一個預測誤差,該預測誤差對應于與學習數(shù)據(jù)相關聯(lián)的輸出的真實值和從動態(tài)系統(tǒng)近似模型6-1輸出并與學習數(shù)據(jù)相關聯(lián)的值之間的平均平方誤差。得分計算器7-1將預測誤差分配給節(jié)點5,作為得分。得分計算器7-1確定代表動態(tài)系統(tǒng)近似模型6-1的m內(nèi)部狀態(tài)量的上下文的初始值,并且在相對于初始值更新上下文的同時計算得分。得分計算器7-1從通過相繼更新預定的參數(shù)值而獲得的值中選擇使得分最小的值,作為初始值。作為用于確定上下文的初始值的預定值,例如可以使用隨機值或者在動態(tài)系統(tǒng)近似模型6-1的學習的前次迭代中獲得的上下文的最后更新值。當已知用于學習的當前迭代的學習數(shù)據(jù)與用于學習的前次迭代的學習數(shù)據(jù)沒有關系時,例如,可使用隨機值作為用于確定上下文的初始值的預定值。另一方面,當像連續(xù)時序數(shù)據(jù)的情形中那樣,知道用于學習的當前迭代的學習數(shù)據(jù)具用于學習的前次迭代的學習數(shù)據(jù)有一定關系時,例如,可使用最后更新值作為用于確定上下文的初始值的預定值。當最后更新值被用作用于確定上下文的初始值的預定值時,可以使用最后更新值作為上下文的初始值,而不更新。得分計算器7-1將分配給個體節(jié)點5的得分作為得分計算的結果提供給獲勝節(jié)點確定器7-2。獲勝節(jié)點確定器7-2比較從得分計算器7-1提供來的個體節(jié)點5的得分,并且確定具有最小得分的節(jié)點5作為與學習數(shù)據(jù)最匹配的獲勝節(jié)點。然后,獲勝節(jié)點確定器7-2將標識獲勝節(jié)點的信息提供給學習權重確定器7-3。學習權重確定器7-3參考存儲在網(wǎng)絡存儲單元1-5中的動態(tài)狀況存儲網(wǎng)絡5-1,并且計算每個節(jié)點5與由提供自獲勝節(jié)點確定器7-2的信息標識的獲勝節(jié)點的距離d。然后,學習權重確定器7-3基于距離d為每個節(jié)點5確定一個學習權重α(0<α≤1)。此外,基于學習權重α,學習權重確定器7-3為每個節(jié)點5生成程度信息。例如,學習權重確定器7-3根據(jù)下面的方程(3),基于學習權重α,生成代表增益參數(shù)η或迭代次數(shù)N的程度信息η=η0×αN=N0×α…(3)在方程(3)中,η0是針對等于1的學習權重α的增益參數(shù)η,N0是針對等于1的學習權重α的迭代次數(shù)N。根據(jù)方程(3),例如,當?shù)螖?shù)N0為100時,如果學習權重α為1則迭代次數(shù)N為100,如果學習權重α為0.1則迭代次數(shù)N為10。學習權重確定器7-3將生成的程度信息提供給每個節(jié)點5的學習程度存儲單元6-2,以便程度信息被存儲在其中。從而,學習程度得以調(diào)節(jié)。對于每個節(jié)點5,參數(shù)更新器7-4讀取存儲在學習程度存儲單元6-2中的程度信息,并且按照由程度信息所表示的程度,學習代表著從特征提取器1-3提供來的學習數(shù)據(jù)的時序模式的動態(tài)狀況。更具體而言,對于每個節(jié)點5,參數(shù)更新器7-4通過基于學習數(shù)據(jù)和程度信息執(zhí)行BPTT方法的反復計算,來更新動態(tài)系統(tǒng)近似模型6-1的參數(shù)。接下來,將參考圖5A和5B描述學習權重α。參考圖5A,節(jié)點8-1至8-6是構成動態(tài)狀況存儲網(wǎng)絡的節(jié)點。在節(jié)點8-1至8-6中,節(jié)點8-1是獲勝節(jié)點,節(jié)點8-2至8-6按與獲勝節(jié)點8-1的距離遞增的順序布置。圖5B所示的圖示出了學習權重α和與獲勝節(jié)點8-1的距離d之間的關系。水平軸代表學習權重α,垂直軸代表與獲勝節(jié)點8-1的距離d。根據(jù)圖5B所示的圖,學習權重α被確定為使針對獲勝節(jié)點8-1的學習權重α具有最大值1,而針對其他節(jié)點8-2至8-6的學習權重α隨著與獲勝節(jié)點8-1的距離d增大而減小。與獲勝節(jié)點的距離d是基于由動態(tài)狀況存儲網(wǎng)絡的鏈接所限定的節(jié)點的空間布置來確定的。例如,在如圖2所示其中節(jié)點5-2至5-10被二維地布置的動態(tài)狀況存儲網(wǎng)絡5-1中,當獲勝節(jié)點是節(jié)點5-7時,與節(jié)點5-7相鄰的節(jié)點5-4、5-6和5-10是最近的,節(jié)點5-3、5-5和5-9是次近的,節(jié)點5-2和5-8是最遠的。在這種情況下,利用連接節(jié)點5的最小鏈接數(shù)作為距離,距離d按距離升序為1、2和3。在圖5B所示的圖中指示的與獲勝節(jié)點8-1的距離d和學習權重α之間的關系可由下面的方程(4)來表達α=γ(d/Δ)…(4)在方程(4)中,γ(0<γ<1)表示衰減系數(shù),Δ表示用于調(diào)節(jié)鄰居的學習權重α的變量。根據(jù)方程(4),學習權重α可通過計算衰減系數(shù)γ的d/Δ次冪來計算。此外,根據(jù)方程(4),由于衰減系數(shù)γ是小于1的正值,因此學習權重α隨著距離d減小而增大?,F(xiàn)在,假定距離d按與獲勝節(jié)點8-1的距離的升序為1、2、3,并且獲勝節(jié)點8-1的距離d為0。例如,當衰減系數(shù)γ為0.5并且變量Δ為1時,隨著與獲勝節(jié)點8-1的距離d增大,學習權重α變?yōu)?、0.5、0.25、0.125…。當變量Δ逐漸增大到0時,隨著與獲勝節(jié)點8-1的距離d增大,學習權重α進一步減小。當變量Δ變得接近0時,針對除獲勝節(jié)點8-1外的節(jié)點5的學習權重α變得基本上為0。如上所述,可以調(diào)節(jié)針對獲勝節(jié)點的鄰居的學習權重α。基本上,變量Δ在學習開始時被選擇為一個較大的值,并且隨著時間過去而被調(diào)節(jié)以減小。學習權重確定器7-3根據(jù)方程(4)為每個節(jié)點5確定學習權重α。然后,基于針對每個節(jié)點5的學習權重α,學習權重確定器7-3根據(jù)方程(3)為節(jié)點5生成程度信息。然后,參數(shù)更新器7-4按照由程度信息表示的程度為每個節(jié)點5執(zhí)行學習。從而,根據(jù)學習權重α,學習單元1-4可利用獲勝節(jié)點8-1以最高程度學習動態(tài)狀況,并且隨著與獲勝節(jié)點8-1的距離增大而減小程度。因此,獲勝節(jié)點8-1的參數(shù)被更新以至于最強烈地受學習數(shù)據(jù)影響,而除獲勝節(jié)點8-1之外的節(jié)點8-2至8-6的參數(shù)被更新,以使隨著與獲勝節(jié)點8-1的距離增大,影響減小。如上所述,學習單元1-4可根據(jù)學習權重α高效地執(zhí)行學習。在一種在學習中反映學習權重α的可能方法中,用于前次學習的學習數(shù)據(jù)和觀察到的時序數(shù)據(jù)的混合比被調(diào)節(jié),從而在學習中間接地反映學習權重α。但是,在這種情況下,每當混合比被調(diào)節(jié)時,就利用經(jīng)調(diào)節(jié)的學習數(shù)據(jù)執(zhí)行巨大量的反復計算,從而計算效率較低。相反,學習單元1-4通過根據(jù)學習權重α調(diào)節(jié)學習程度來在學習中直接反映學習權重α,從而可根據(jù)學習權重α高效地執(zhí)行學習。這幫助減小了迭代次數(shù),從而提高了計算效率。即,在由學習單元1-4執(zhí)行的學習中,自組織方式的學習和利用基于反復計算的梯度方法的學習被適當?shù)亟M合。接下來,將參考圖6描述圖1所示的數(shù)據(jù)處理設備學習動態(tài)狀況存儲網(wǎng)絡5-1的學習過程。該學習過程例如在圖1所示的數(shù)據(jù)處理設備被加電時開始。首先,在步驟S1中,學習單元1-4的參數(shù)更新器7-4(圖4)初始化存儲在網(wǎng)絡存儲單元1-5中的動態(tài)狀況存儲網(wǎng)絡5-1的參數(shù)。更具體而言,適當?shù)闹当蛔鳛槌跏贾蹬渲媒o動態(tài)狀況存儲網(wǎng)絡5-1的每個節(jié)點5的動態(tài)系統(tǒng)近似模型6-1的參數(shù)。在步驟S1之后,過程進行到步驟S2。在步驟S2中,圖1所示的信號輸入單元1-2獲得觀察信號1-1,并將觀察信號1-1提供給特征提取器1-3。過程隨后進行到步驟S3。在步驟S3中,特征提取器1-3提取觀察信號1-1在時序上的特征,并且將所得到的時序數(shù)據(jù)作為學習數(shù)據(jù)提供給學習單元1-4的得分計算器7-1和參數(shù)更新器7-4。在步驟S3之后,過程進行到步驟S4。在步驟S4中,得分計算器7-1在更新內(nèi)部狀態(tài)量的同時,為存儲在網(wǎng)絡存儲單元1-5中的動態(tài)狀況存儲網(wǎng)絡5-1中包括的每個節(jié)點5的動態(tài)系統(tǒng)近似模型6-1計算關于提供自特征提取器1-3的學習數(shù)據(jù)的得分。然后,得分計算器7-1將分配給個體節(jié)點5的得分作為得分計算的結果提供給獲勝節(jié)點確定器7-2。在步驟S4之后,過程進行到步驟S5。在步驟S5中,獲勝節(jié)點確定器7-2比較從得分計算器7-1提供來的個體節(jié)點5的得分,并確定具有最小得分的節(jié)點作為獲勝節(jié)點8-1。然后,獲勝節(jié)點確定器7-2將標識獲勝節(jié)點8-1的信息提供給學習權重確定器7-3。在步驟S5之后,過程進行到步驟S6。在步驟S6中,學習權重確定器7-3參考存儲在網(wǎng)絡存儲單元1-5中的動態(tài)狀況存儲網(wǎng)絡5-1,并根據(jù)早先給出的方程(4)為每個節(jié)點5計算學習權重α。在步驟S6之后,過程進行到步驟S7。在步驟S7中,基于針對每個節(jié)點5的學習權重α,學習權重確定器7-3根據(jù)早先給出的方程(3)為節(jié)點5生成程度信息,并將程度信息提供給節(jié)點5的學習程度存儲單元6-2,以便程度信息被存儲在其中。在步驟S7之后,過程進行到步驟S8。在步驟S8中,對于每個節(jié)點5,參數(shù)更新器7-4基于從特征提取器1-3提供來的學習數(shù)據(jù)以及程度信息,執(zhí)行BPTT方法的反復計算,從而更新動態(tài)系統(tǒng)近似模型6-1的參數(shù)。過程隨后返回到步驟S2,并且后續(xù)的步驟被重復。以這種方式,按照由程度信息表示的程度學習動態(tài)狀況。接下來,將參考圖7描述圖1所示的數(shù)據(jù)處理設備識別和生成時序數(shù)據(jù)的過程。圖7示出圖1所示的數(shù)據(jù)處理設備的識別單元1-6和生成單元1-9的詳細配置的示例。時序數(shù)據(jù)的識別和生成是指識別輸入的時序數(shù)據(jù)并基于識別結果生成新的時序數(shù)據(jù)。在識別和生成中,例如,當某個人向機器人發(fā)出語言時,在機器人中生成用于響應于語音采取動作的電機信號、用于響應于語音生成合成語音的參數(shù)信號,等等。如圖7所示,識別單元1-6包括內(nèi)部狀態(tài)量更新器12-1、得分計算器12-2、確定器12-3和輸出單元12-4。內(nèi)部狀態(tài)量更新器12-1讀取最后被更新并被從內(nèi)部狀態(tài)存儲單元1-11存儲到每個節(jié)點5的動態(tài)系統(tǒng)近似模型6-1中的內(nèi)部狀態(tài)量。更具體而言,內(nèi)部狀態(tài)量更新器12-1讀取來自內(nèi)部狀態(tài)存儲單元1-11的內(nèi)部狀態(tài)量,并將內(nèi)部狀態(tài)量提供給得分計算器12-2,作為每個節(jié)點5的動態(tài)系統(tǒng)近似模型6-1的內(nèi)部狀態(tài)量。從而,在動態(tài)系統(tǒng)近似模型6-1中,可利用由內(nèi)部狀態(tài)量更新器12-1讀取的值作為初始值,基于輸入的時序數(shù)據(jù)更新內(nèi)部狀態(tài)量。此外,內(nèi)部狀態(tài)量更新器12-1將從得分計算器12-2提供來的在確定獲勝節(jié)點時節(jié)點5的內(nèi)部狀態(tài)量的初始值和在確定器12-3確定獲勝節(jié)點時每個節(jié)點5的內(nèi)部狀態(tài)量的更新值存儲在內(nèi)部狀態(tài)存儲單元1-11中。存儲在內(nèi)部狀態(tài)存儲單元1-11中的內(nèi)部狀態(tài)量的更新值被讀取到動態(tài)系統(tǒng)近似模型6-1中,并且被用于得分計算的下次迭代。此外,存儲在內(nèi)部狀態(tài)存儲單元1-11中的內(nèi)部狀態(tài)量的初始值被生成單元1-9用于生成時序數(shù)據(jù)。與得分計算器7-1類似,得分計算器12-2在更新內(nèi)部狀態(tài)量的同時為存儲在網(wǎng)絡存儲單元1-5中的動態(tài)狀況存儲網(wǎng)絡5-1中包括的每個節(jié)點5的動態(tài)狀況存儲網(wǎng)絡5-1計算關于從特征提取器1-3提供來的時序數(shù)據(jù)的得分。得分計算器12-2將分配給每個節(jié)點5的得分作為得分計算的結果提供給確定器12-3。此外,得分計算器12-2提供在分配得分給內(nèi)部狀態(tài)量更新器12-1時節(jié)點5的內(nèi)部狀態(tài)量的更新值和初始值,作為在確定獲勝節(jié)點時節(jié)點5的內(nèi)部狀態(tài)量的更新值和初始值?;趶牡梅钟嬎闫?2-2提供來的得分,確定器12-3確定具有最小得分的節(jié)點作為獲勝節(jié)點。即,確定器12-3選擇與獲勝節(jié)點相關聯(lián)的動態(tài)狀況,作為與從特征提取器1-3輸入的時序數(shù)據(jù)最匹配的動態(tài)狀況。確定器12-3將標識與輸入時序數(shù)據(jù)最匹配的獲勝節(jié)點的信號提供給輸出單元12-4。輸出單元12-4輸出從確定器12-3提供來的標識獲勝節(jié)點的信號,作為識別結果1-7。以這種方式,識別單元1-6識別輸入時序數(shù)據(jù)。識別結果1-7被用作控制信號1-8,該控制信號1-8指定具有將被用于生成時序數(shù)據(jù)的動態(tài)狀況的節(jié)點5。圖7所示的生成單元1-9包括生成節(jié)點確定器12-5、內(nèi)部狀態(tài)讀取器12-6、時序數(shù)據(jù)生成器12-7和輸出單元12-8。生成節(jié)點確定器12-5接收從輸出單元12-4作為控制信號1-8輸出的識別結果1-7?;诳刂菩盘?-8,生成節(jié)點確定器12-5確定生成節(jié)點,即將被用來生成時序數(shù)據(jù)的節(jié)點5。即,由確定器12-3確定的獲勝節(jié)點被確定為生成節(jié)點。然后,生成節(jié)點確定器12-5將標識生成節(jié)點的信息提供給內(nèi)部狀態(tài)讀取器12-6?;趶纳晒?jié)點確定器12-5提供來的作為內(nèi)部狀態(tài)量初始值的信息,內(nèi)部狀態(tài)讀取器12-6將存儲在內(nèi)部狀態(tài)存儲單元1-11中的值讀取到存儲在網(wǎng)絡存儲單元1-5中的動態(tài)狀況存儲網(wǎng)絡5-1中包括的節(jié)點5中的生成節(jié)點的動態(tài)系統(tǒng)近似模型6-1中。即,內(nèi)部狀態(tài)讀取器12-6從存儲在內(nèi)部狀態(tài)存儲單元1-11的值中讀取在識別單元1-6確定獲勝節(jié)點時的內(nèi)部狀態(tài)量的初始值,并且將內(nèi)部狀態(tài)量的初始值提供給時序數(shù)據(jù)生成器12-7,作為生成節(jié)點的動態(tài)系統(tǒng)近似模型6-1的內(nèi)部狀態(tài)量的初始值。時序數(shù)據(jù)生成器12-7接收從特征提取器1-3提供來的時序數(shù)據(jù)?;跁r序數(shù)據(jù)、從內(nèi)部狀態(tài)讀取器12-6提供來的內(nèi)部狀態(tài)量的初始值以及生成節(jié)點的動態(tài)系統(tǒng)近似模型6-1,時序數(shù)據(jù)生成器12-7在更新內(nèi)部狀態(tài)量的同時生成時序數(shù)據(jù)。然后,時序數(shù)據(jù)生成器12-7將時序數(shù)據(jù)提供給輸出單元12-8。輸出單元12-8將從時序數(shù)據(jù)生成器12-7提供來的時序數(shù)據(jù)輸出,作為生成結果1-10。以這種方式,生成單元1-9生成并輸出來自通過識別單元1-6進行的識別而確定的獲勝節(jié)點的時序數(shù)據(jù),作為生成結果1-10。如上所述,在圖1所示的數(shù)據(jù)處理設備中,獲勝節(jié)點確定器7-2確定獲勝節(jié)點,即保存動態(tài)狀況并構成動態(tài)狀況存儲網(wǎng)絡5-1的節(jié)點5中具有與觀察到的時序數(shù)據(jù)時匹配的動態(tài)狀況的節(jié)點5,學習權重確定器為每個節(jié)點5保存的動態(tài)狀況確定學習權重α,并且參數(shù)更新器7-4按照由對應于學習權重α的程度信息所表示的程度,基于時序數(shù)據(jù),以自組織方式學習動態(tài)狀況存儲網(wǎng)絡5-1的動態(tài)狀況。因此,可以高效地學習動態(tài)狀況。在上面的描述中,得分對應于與時序數(shù)據(jù)相關聯(lián)的輸出的真實值和從動態(tài)系統(tǒng)近似模型6-1輸出并與時序數(shù)據(jù)相關聯(lián)的值之間的平均平方誤差。但是,例如,得分可以對應于距離或概率,而這并非限制性的。當?shù)梅謱诰嚯x時,與得分對應于平均平方誤差的情形類似,具有最小得分的節(jié)點被確定為獲勝節(jié)點。另一方面,當?shù)梅謱诟怕蕰r,具有最大得分的節(jié)點被確定為獲勝節(jié)點。上述一系列過程可由硬件或軟件執(zhí)行。當該系列過程由軟件執(zhí)行時,構成軟件的程序被存儲在通用計算機等等之上。圖8示出根據(jù)本發(fā)明實施例的計算機的示例性配置,用于執(zhí)行上述一系列過程的程序被存儲在該計算機上。程序可被預先記錄在作為記錄介質(zhì)包括在計算機中的硬盤105或只讀存儲器(ROM)103上?;蛘?,程序可被臨時地或永久地存儲(記錄)在可移動記錄介質(zhì)111上,該可移動記錄介質(zhì)111例如是緊致盤只讀存儲器(CD-ROM)、磁光(MO)盤、數(shù)字多功能盤(DVD)、磁盤或者半導體存儲器??梢苿佑涗浗橘|(zhì)111可以所謂的軟件包的形式提供。取代如上所述的將程序從可移動記錄介質(zhì)111安裝到計算機上,程序可經(jīng)由用于數(shù)字衛(wèi)星廣播的人造衛(wèi)星被無線地傳送到計算機,或者可經(jīng)由諸如局域網(wǎng)(LAN)或因特網(wǎng)之類的網(wǎng)絡被有線地傳送到計算機,以便所傳送的程序被通信單元108接收,并被安裝在計算機中的硬盤105上。計算機包括中央處理單元(CPU)102。CPU102經(jīng)由總線101連接到輸入/輸出接口110。當指令例如通過用戶對輸入單元107(例如鍵盤、鼠標或麥克風)的操作經(jīng)由輸入/輸出接口110輸入時,CPU102根據(jù)指令執(zhí)行存儲在ROM103中的程序?;蛘?,CPU102將存儲在硬盤105中的程序、從衛(wèi)星或網(wǎng)絡傳送來、被通信單元108所接收并被安裝在硬盤105上的程序或者從安裝在驅(qū)動器109上的可移動記錄介質(zhì)讀取的并被安裝在硬盤105上的程序加載到隨機訪問存儲器(ROM)104中,并且執(zhí)行加載的程序。從而,CPU102根據(jù)由上述框圖中所示的配置所執(zhí)行的流程圖或過程來執(zhí)行過程。然后,根據(jù)需要,例如,CPU102經(jīng)由輸入/輸出接口110,從輸出單元106(例如液晶顯示器(LCD)或揚聲器)輸出過程的結果,從通信單元108發(fā)送過程的結果,或者將過程的結果記錄在硬盤105中。用于使計算機執(zhí)行各種過程的程序的處理步驟不一定需要以這里參考流程圖描述的順序執(zhí)行,并且可以包括被并行執(zhí)行或單獨執(zhí)行的過程(例如并行處理或按對象的處理)。程序可由單個計算機執(zhí)行,或者可由多個計算機以分布方式執(zhí)行。此外,程序可被傳送到遠程計算機并由其執(zhí)行。本領域的技術人員應當理解,取決于設計要求和其他因素,可以進行各種修改、組合、子組合和更改,只要它們處于所附權利要求或其等同物的范圍之內(nèi)。本發(fā)明包含與2006年4月6日向日本專利局遞交的日本專利申請JP2006-105546相關的主題,這里通過引用將該申請的全部內(nèi)容結合進來。權利要求1.一種學習設備,包括存儲裝置,用于存儲由多個各自保存動態(tài)狀況的節(jié)點形成的網(wǎng)絡;學習裝置,用于基于觀察到的時序數(shù)據(jù)以自組織方式學習所述網(wǎng)絡的動態(tài)狀況;獲勝節(jié)點確定裝置,用于確定獲勝節(jié)點,該獲勝節(jié)點是具有與所述時序數(shù)據(jù)最匹配的動態(tài)狀況的節(jié)點;以及權重確定裝置,用于根據(jù)個體節(jié)點與所述獲勝節(jié)點的距離,為由所述個體節(jié)點保存的動態(tài)狀況確定學習權重;其中所述學習裝置按照與所述學習權重相對應的程度以自組織方式學習所述網(wǎng)絡的動態(tài)狀況。2.如權利要求1所述的學習設備,其中所述動態(tài)狀況由具有內(nèi)部狀態(tài)量的動態(tài)系統(tǒng)近似模型來模擬。3.如權利要求1所述的學習設備,其中所述動態(tài)狀況由遞歸神經(jīng)網(wǎng)絡來模擬。4.如權利要求1所述的學習設備,其中所述學習裝置通過基于反復計算的梯度方法來學習所述網(wǎng)絡的動態(tài)狀況,其中所述反復計算的迭代次數(shù)或者梯度的量值是根據(jù)所述學習權重來確定的。5.一種學習方法,包括以下步驟確定保存動態(tài)狀況并形成網(wǎng)絡的多個節(jié)點中的獲勝節(jié)點,該獲勝節(jié)點是具有與觀察到的時序數(shù)據(jù)最匹配的動態(tài)狀況的節(jié)點;根據(jù)個體節(jié)點與所述獲勝節(jié)點的距離,為由所述個體節(jié)點保存的動態(tài)狀況確定學習權重;以及按照與所述學習權重相對應的程度基于所述時序數(shù)據(jù)以自組織方式學習所述網(wǎng)絡的動態(tài)狀況。6.一種用于使計算機執(zhí)行處理的計算機程序,所述處理包括以下步驟確定保存動態(tài)狀況并形成網(wǎng)絡的多個節(jié)點中的獲勝節(jié)點,該獲勝節(jié)點是具有與觀察到的時序數(shù)據(jù)最匹配的動態(tài)狀況的節(jié)點;根據(jù)個體節(jié)點與所述獲勝節(jié)點的距離,為由該個體節(jié)點保存的動態(tài)狀況確定學習權重;以及按照與所述學習權重相對應的程度基于所述時序數(shù)據(jù)以自組織方式學習所述網(wǎng)絡的動態(tài)狀況。7.一種學習設備,包括存儲單元,其被配置為存儲由多個各自保存動態(tài)狀況的節(jié)點形成的網(wǎng)絡;學習單元,其被配置為基于觀察到的時序數(shù)據(jù)以自組織方式學習所述網(wǎng)絡的動態(tài)狀況;獲勝節(jié)點確定器,其被配置為確定獲勝節(jié)點,該獲勝節(jié)點是具有與所述時序數(shù)據(jù)最匹配的動態(tài)狀況的節(jié)點;以及權重確定器,其被配置為根據(jù)個體節(jié)點與所述獲勝節(jié)點的距離,為由所述個體節(jié)點保存的動態(tài)狀況確定學習權重;其中所述學習單元按照與所述學習權重相對應的程度以自組織方式學習所述網(wǎng)絡的動態(tài)狀況。全文摘要本發(fā)明提供學習設備、學習方法和程序。一種學習設備包括存儲單元,其被配置為存儲由多個各自保存動態(tài)狀況的節(jié)點形成的網(wǎng)絡;學習單元,其被配置為基于觀察到的時序數(shù)據(jù)以自組織方式學習網(wǎng)絡的動態(tài)狀況;獲勝節(jié)點確定器,其被配置為確定獲勝節(jié)點,該獲勝節(jié)點是具有與時序數(shù)據(jù)最匹配的動態(tài)狀況的節(jié)點;以及權重確定器,其被配置為根據(jù)個體節(jié)點與獲勝節(jié)點的距離,為由該個體節(jié)點保存的動態(tài)狀況確定學習權重。學習單元按照與學習權重相對應的程度以自組織方式學習網(wǎng)絡的動態(tài)狀況。文檔編號B25J9/16GK101051215SQ20071009040公開日2007年10月10日申請日期2007年4月6日優(yōu)先權日2006年4月6日發(fā)明者南野活樹,伊藤真人,河本獻太,吉池由紀子,鈴木洋貴申請人:索尼株式會社