技術(shù)編號:10687680
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術(shù)詳細信息。本發(fā)明涉及一種用于使用目標和觀察的強化學習的方法、系統(tǒng)和裝置,包括在計算機存儲介質(zhì)上編碼的計算機程序。所述方法中的一個包括接收表征環(huán)境的當前狀態(tài)的觀察;接收表征來自環(huán)境的目標狀態(tài)集的目標狀態(tài)的目標;使用觀察神經(jīng)網(wǎng)絡處理觀察以生成觀察的數(shù)字表示;使用目標神經(jīng)網(wǎng)絡處理目標以生成目標的數(shù)字表示;組合所觀察的數(shù)字表示和目標的數(shù)字表示以生成組合的表示;使用動作分值神經(jīng)網(wǎng)絡處理組合的表示以為預定的動作集中的每個動作生成相應的分值;以及使用預定的動作集中的動作的相應的分...
注意:該技術(shù)已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權(quán)人授權(quán)前,僅供技術(shù)研究參考不得用于商業(yè)用途。
該專利適合技術(shù)人員進行技術(shù)研發(fā)參考以及查看自身技術(shù)是否侵權(quán),增加技術(shù)思路,做技術(shù)知識儲備,不適合論文引用。
請注意,此類技術(shù)沒有源代碼,用于學習研究技術(shù)思路。