亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于強化學習的多Agent污水處理決策支持系統(tǒng)的制作方法

文檔序號:6556117閱讀:383來源:國知局
專利名稱:基于強化學習的多Agent污水處理決策支持系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種強化學習算法應用到污水處理的多Agent決策支持系統(tǒng),是智能決策支持系統(tǒng)中的一種應用,屬于人工智能技術(shù)領(lǐng)域。
背景技術(shù)
隨著城市化、工業(yè)化的加速,水資源的需求缺口也日益增大,在這樣的背景下,污水處理行業(yè)成為新興產(chǎn)業(yè)。目前,污水處理廠的控制系統(tǒng)基本都采用集散型控制系統(tǒng)體系結(jié)構(gòu)。其中上層(監(jiān)管層)采用工業(yè)控制計算機,主要完成設定值的輸入操作,各工藝參數(shù)、 電氣參數(shù)及主要設備運行狀態(tài)信息的管理,并以趨勢圖、表格形式顯示,給出各種臨界提示及錯誤、越限報警;下層(控制層)由PLC實現(xiàn)數(shù)據(jù)的采集、控制算法的實現(xiàn)、控制命令的下發(fā)以及工藝過程的連鎖等功能。智能控制主要集中在底層針對某參數(shù)或環(huán)節(jié)的智能控制器的研究上,因此,如何利用人工智能(Artificial Intelligence,縮寫Al)技術(shù)對整個污水處理過程進行系統(tǒng)地、有效地監(jiān)控、管理是應進一步展開的工作。決策支持系統(tǒng)是支持決策者解決半結(jié)構(gòu)化決策問題的具有智能作用的人機系統(tǒng), 該系統(tǒng)能夠為決策者迅速而準確地提供決定所需的數(shù)據(jù)、信息和背景材料,幫助決策者明確目標,建立或修改決策模型提供各種備選方案,對各種方案進行評價和優(yōu)選,為正確決策提供有力支持。Agent是一類在特定環(huán)境下能感知環(huán)境,并能自治地運行以代表其設計者或使用者實現(xiàn)一系列目標計算實體或程序。MAS (Multi-Agent System)是由多個Agent組成的分布式自主系統(tǒng),它在Agent理論的基礎上重點研究Agent的互操作性及Agent間的協(xié)商和協(xié)作等。MA S不僅改善了每個Agent的基本能力,而且可以從Agent的通訊、合作、互解、協(xié)調(diào)、調(diào)度、管理及控制來表達系統(tǒng)的結(jié)構(gòu)、功能及行為特性,進一步理解系統(tǒng)的社會行為,已經(jīng)成功地應用于智能機器人、智能交通系統(tǒng)軟件開發(fā)、移動通訊及網(wǎng)絡瀏覽等眾多領(lǐng)域。強化學習是無監(jiān)督學習方法,目前已被廣泛應用于預測、智能控制、決策支持等諸多領(lǐng)域。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一個較智能的污水處理決策支持系統(tǒng),通過計算污水處理的成本效益來決策是否需要不同的污水處理廠協(xié)作處理污水,污水處理廠Agent根據(jù)自身的屬性決定是否需要加入此次污水處理過程,從而保證在較低的經(jīng)濟成本下最有效地處理污水,改善水環(huán)境。為了達到上述目的,本發(fā)明采取的技術(shù)方案是基于強化學習的多Agent污水處理決策支持系統(tǒng),其特征是包括以下步驟a、從整個污水處理系統(tǒng)全局出發(fā),在污水處理的管理層上對污水處理廠進行控制、調(diào)配,判定是否選擇該處理廠加入污水處理行列。將水污染源附近的污水處理廠抽象成具有一定屬性的Agent主體,每個Agent主要包括污水處理廠的處理能力C,污水處理廠與污染源的距離D,主要針對處理的污染物質(zhì)E,單位距離污水運輸?shù)馁M用P1,單位體積污水處理的費用P2 ;將每個Agent賦予一定的屬性,不僅可以有效處理Agent間的協(xié)商與協(xié)作關(guān)系,也增強了系統(tǒng)的可擴展性。b、將強化學習與Agent概念相結(jié)合,定義強化學習的狀態(tài)集S = {C,D,E,P1,P2}, 動作集A= Ial,a2},其中,al表示該Agent加入污水處理系統(tǒng),a2表示該Agent不加入污水處理系統(tǒng);污水處理廠被抽象成具有一定屬性的Agent參數(shù),Agent參數(shù)通過與外界環(huán)境即水污染狀況交互,獲得狀態(tài)S,執(zhí)行動作A,并獲得回報值r (獎勵或懲罰)。強化學習把學習看成一個試探評價的過程,如果污水處理廠Agent的某個行為策略如加入或不加入污水處理行列導致外界環(huán)境包括環(huán)境效益和經(jīng)濟效益的綜合效益反饋正的回報值即r > 0,那么Agent產(chǎn)生這個行為策略的趨勢將會加強;如果Agent的某個行為策略導致環(huán)境反饋負的回報值,那么Agent產(chǎn)生這個行為策略的趨勢將會減弱,多Agent 系統(tǒng)中強化學習就是Agent從環(huán)境(同時包括其他Agent行為產(chǎn)生的影響)到行為映射的學習,以使獎勵回報值最大。C、初始化強化學習中Q學習的參數(shù),包括學習速率、折扣因子、Q值;d、各個污水處理廠Agent通過感知模塊獲得當前狀態(tài)s,s e S,并根據(jù)動作選擇策略選擇當前狀態(tài)s下最優(yōu)動作;e、每個污水處理廠Agent根據(jù)一定的策略選擇動作,策略可看成狀態(tài)空間到行為空間的映射,即污水處理廠Agent在特定的狀態(tài)下(如污水處理廠的處理能力為c,污水處理廠與污染源的距離d,主要針對處理的污染物質(zhì)e,單位距離污水運輸?shù)馁M用pl,單位體積污水處理的費用P》時如何選擇特定的行為(加入或者不加入此次污水處理過程)。動作選擇策略采用Boltzmarm策略,通過執(zhí)行動作a得到新的狀態(tài)s',同時從外界環(huán)境得到回報值r,Boltzmann動作選擇策略公式為
權(quán)利要求
1.一種基于強化學習的多Agent污水處理決策支持系統(tǒng),其特征是,包括以下步驟a、將水污染源附近的η個污水處理廠分別抽象成具有一定屬性的Agent主體,每個 Agent包括污水處理廠的處理能力C、污水處理廠與污染源的距離D、主要針對處理的污染物質(zhì)E、單位距離污水運輸?shù)馁M用P1、單位體積污水處理的費用P2 ;b、將強化學習與Agent相結(jié)合,定義強化學習的狀態(tài)集S= {C,D,E,PI, P2},動作集A ={al,a2},其中,al表示該Agent加入污水處理系統(tǒng),a2表示該Agent不加入污水處理系統(tǒng);c、初始化強化學習中Q學習的參數(shù),包括學習速率、折扣因子、Q值;d、各個污水處理廠Agent通過感知模塊獲得當前狀態(tài)s,se S,并根據(jù)動作選擇策略選擇當前狀態(tài)s下最優(yōu)動作;e、動作選擇策略采用Boltzmarm策略,通過執(zhí)行動作a得到新的狀態(tài)s',同時從外界環(huán)境得到回報值r;f、對Q學習中的Q值進行Q值的計算與更新;g、一次學習過程結(jié)束,等待或者馬上進入下一個學習過程,直到Q值收斂,得到最優(yōu)決策,選擇最佳的一個或多個污水處理廠Agent加入此次污水處理過程。
2.根據(jù)權(quán)利要求1所述的基于強化學習的多Agent污水處理決策支持系統(tǒng),其特征是, 所述Boltzmarm動作選擇策略公式為eQ(s,a)/rP(a\s,Q)=^QM/Ta'eA其中,a為所選擇的最佳動作,a'為在s狀態(tài)下可選擇的所有動作,Q為行為的值函數(shù), τ是一個正的參數(shù),稱為退火溫度,用它來控制搜索率,行為的選擇取決于該狀態(tài)-行為對的Q值函數(shù)和參數(shù)τ。
3.根據(jù)權(quán)利要求1所述的基于強化學習的多Agent污水處理決策支持系統(tǒng),其特征是, 根據(jù)Q學習中的Q值公式進行Q值的計算與更新,Q值公式為Q{st,at、= Q{st,^) + a{rt+l + γ max Q{st+l,at+l)-Q{st,at))at+l&A{st+l)其中α e (0,1)是學習速率,Y e (0,1)是折扣系數(shù),A(st+1)是狀態(tài)對應的動作集,Agent在狀態(tài)St采用動作at,使狀態(tài)變?yōu)閟t+1,同時收到立即獎勵rt+1,Q學習中,每個 (狀態(tài)St-動作at)對對應一個相應的Q (st,at)值。
4.根據(jù)權(quán)利要求1所述的基于強化學習的多Agent污水處理決策支持系統(tǒng),其特征是, 所述強化學習把學習看成一個試探評價的過程,如果污水處理廠Agent的某個行為策略如加入或不加入污水處理行列導致外界環(huán)境包括環(huán)境效益和經(jīng)濟效益的綜合效益反饋正的回報值即r > 0,那么Agent產(chǎn)生這個行為策略的趨勢將會加強;如果Agent的某個行為策略導致環(huán)境反饋負的回報值,那么Agent產(chǎn)生這個行為策略的趨勢將會減弱。
全文摘要
本發(fā)明公開了一種基于強化學習的多Agent污水處理決策支持系統(tǒng),將水污染源附近的污水處理廠抽象成具有一定屬性的Agent主體,將強化學習與Agent概念相結(jié)合,定義強化學習的狀態(tài)集、動作集;初始化強化學習中Q學習的參數(shù),包括學習速率、折扣因子、Q值;各個Agent通過感知模塊獲得當前狀態(tài),并根據(jù)動作選擇策略選擇當前狀態(tài)下最優(yōu)動作;根據(jù)Q學習中的Q值公式進行Q值的計算與更新;一次學習過程結(jié)束,等待或者馬上進入下一個學習過程,直到Q值收斂,得到最優(yōu)決策。本發(fā)明從整個污水處理系統(tǒng)的全局出發(fā),宏觀調(diào)配污水處理廠的使用情況,具有較高的靈活性與自適應能力,并且可擴展性也非常高,具有較高的實用價值。
文檔編號G06F15/18GK102207928SQ20111014718
公開日2011年10月5日 申請日期2011年6月2日 優(yōu)先權(quán)日2011年6月2日
發(fā)明者倪建軍, 劉明華, 譚憲軍, 馬華偉 申請人:河海大學常州校區(qū)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1