一種Web服務(wù)組合方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種Web服務(wù)組合方法,針對(duì)傳統(tǒng)服務(wù)組合方法存在的耗時(shí)長(zhǎng)、靈活性差等問(wèn)題,將多Agent(智能體)技術(shù)、博弈論和強(qiáng)化學(xué)習(xí)方法引入服務(wù)組合過(guò)程,將服務(wù)組合過(guò)程轉(zhuǎn)化為一個(gè)馬爾可夫博弈過(guò)程(Markov?Games,or?Stochastic?Games)。在此基礎(chǔ)上進(jìn)一步融入Q-learning方法和團(tuán)隊(duì)馬爾可夫博弈理論,使其能夠適用于多Agent協(xié)同學(xué)習(xí)環(huán)境,通過(guò)迭代求解的方式求得最終的服務(wù)組合結(jié)果。本發(fā)明方法能夠有效提高求解速度,確保各個(gè)智能體在高效協(xié)作的同時(shí),能夠自主地適應(yīng)環(huán)境并進(jìn)行動(dòng)態(tài)的服務(wù)組合,有效提高了服務(wù)組合的靈活性和自適應(yīng)性。
【專(zhuān)利說(shuō)明】—種Web服務(wù)組合方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)領(lǐng)域,涉及Web服務(wù)組合方法。
【背景技術(shù)】
[0002]隨著近些年來(lái)Web服務(wù)領(lǐng)域的快速發(fā)展,以及面向服務(wù)的軟件開(kāi)發(fā)方法的迅速升溫,Web服務(wù)組合得到了眾多研究者的關(guān)注。由于單個(gè)Web服務(wù)的能力有限,如何將各種不同的業(yè)務(wù)根據(jù)需求有效地集成、提供更優(yōu)質(zhì)的服務(wù),成為了 Web服務(wù)應(yīng)用集成的核心問(wèn)題。從最初的功能驅(qū)動(dòng)到后來(lái)的QoS (Quality of Service,服務(wù)質(zhì)量)驅(qū)動(dòng),相關(guān)研究人員已經(jīng)在Web服務(wù)組合領(lǐng)域做了大量的研究工作。但是,由于Web服務(wù)的隨機(jī)性和Internet環(huán)境的不確定性,Web服務(wù)組合領(lǐng)域仍然面領(lǐng)著一些挑戰(zhàn),譬如如何減少組合過(guò)程所耗費(fèi)的時(shí)間、如何適應(yīng)動(dòng)態(tài)環(huán)境的變化等等。因此,對(duì)Web服務(wù)組合方法進(jìn)行研究和創(chuàng)新有著重要的現(xiàn)實(shí)意義。
[0003]強(qiáng)化學(xué)習(xí)作為一種以環(huán)境反饋?zhàn)鳛檩斎氲?、特殊的、自主適應(yīng)環(huán)境的機(jī)器學(xué)習(xí)方法,能夠有效提高智能系統(tǒng)在動(dòng)態(tài)不可預(yù)測(cè)的環(huán)境下的問(wèn)題求解。近些年來(lái),逐漸有研究人員試著將強(qiáng)化學(xué)習(xí)機(jī)制引入服務(wù)組合過(guò)程,以提高服務(wù)組合的靈活性與自適應(yīng)性。強(qiáng)化學(xué)習(xí)的基本原理是:如果Agent (智能體)的某個(gè)行為策略導(dǎo)致環(huán)境正的獎(jiǎng)賞(強(qiáng)化信號(hào)),那么Agent以后產(chǎn)生這個(gè)行為策略的趨勢(shì)便會(huì)加強(qiáng)。Agent的目標(biāo)是在每個(gè)離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略,從而使得期望的折扣獎(jiǎng)勵(lì)之和達(dá)到最大。一般來(lái)講,強(qiáng)化學(xué)習(xí)框架需要通過(guò)合適的數(shù)學(xué)模型予以實(shí)現(xiàn),如馬爾可夫決策模型(Markov Decision Process)、矩陣決策模型等等。
[0004]值得注意的是,現(xiàn)有的利用強(qiáng)化學(xué)習(xí)進(jìn)行服務(wù)組合的方法中,鮮少有方法使用多Agent技術(shù)來(lái)加速組合過(guò)程。為數(shù)不多的此類(lèi)方法也僅僅是采用樸素的知識(shí)復(fù)制的形式來(lái)實(shí)現(xiàn)不同Agent間的經(jīng)驗(yàn)共享,不同Agent間本質(zhì)上還是各自行動(dòng),未能充分考慮到多Agent間可能存在的協(xié)同博弈行為,也未能實(shí)現(xiàn)多Agent聯(lián)合探索求解路徑的目標(biāo)。
[0005]現(xiàn)有的利用強(qiáng)化學(xué)習(xí)進(jìn)行服務(wù)組合的方法中,大多是將服務(wù)組合過(guò)程建模為馬爾可夫決策過(guò)程(Markov Decision Process, MDP)或各種馬爾可夫決策過(guò)程的變形,如半馬爾可夫過(guò)程、隱馬爾可夫過(guò)程、連續(xù)時(shí)間馬爾可夫過(guò)程等等,然后在此基礎(chǔ)上應(yīng)用強(qiáng)化學(xué)習(xí)的某種算法進(jìn)行迭代求解。然而需要注意的是,馬爾可夫決策過(guò)程及其各種變形適用的是單Agent學(xué)習(xí)框架,換言之,采用這類(lèi)模型的解決方案基本都是單Agent學(xué)習(xí)機(jī)制的變形,在求解效率上并沒(méi)有顯著的提升。
[0006]多Agent系統(tǒng)(Mult1-Agent System)作為近年來(lái)人工智能領(lǐng)域中除了強(qiáng)化學(xué)習(xí)以外的另一個(gè)研究熱點(diǎn),是當(dāng)前分布式人工智能研究的重要分支。多Agent技術(shù)主要研究一組自治的智能體在分布式開(kāi)放的動(dòng)態(tài)環(huán)境下,通過(guò)交互、合作、競(jìng)爭(zhēng)、協(xié)商等智能行為完成復(fù)雜的控制或任務(wù)求解,由于它更能體現(xiàn)人類(lèi)的社會(huì)智能,更加適合開(kāi)放的、動(dòng)態(tài)的社會(huì)環(huán)境,因而得到廣泛的關(guān)注。就目前而言,多Agent系統(tǒng)的重點(diǎn)在于體系結(jié)構(gòu)、協(xié)調(diào)和學(xué)習(xí)機(jī)制這些方面,如何在開(kāi)放的動(dòng)態(tài)環(huán)境下,使各智能體在短時(shí)間內(nèi)具有快速學(xué)習(xí)和協(xié)調(diào)功能的能力,是多Agent系統(tǒng)能否有效運(yùn)作的關(guān)鍵。[0007]近來(lái),有少部分研究人員嘗試將多Agent技術(shù)加入到服務(wù)組合的過(guò)程中,希望通過(guò)多Agent學(xué)習(xí)來(lái)加快問(wèn)題求解的速度,提升服務(wù)組合的自適應(yīng)性。然而,這些方法存在著下述問(wèn)題:首先,這些方法的建模策略本質(zhì)上依舊是馬爾可夫決策過(guò)程,只是單純地將其推廣至每一個(gè)Agent,即針對(duì)每個(gè)Agent都建立一個(gè)MDP模型,并沒(méi)有通過(guò)一個(gè)全局模型將所有的Agent統(tǒng)一納入考慮;其次,沒(méi)有考慮到各個(gè)Agent在學(xué)習(xí)過(guò)程中可能遇到的博弈和協(xié)作關(guān)系,因而并不能稱(chēng)作完整的多Agent協(xié)同強(qiáng)化學(xué)習(xí)。
[0008]博弈論作為一門(mén)研究多個(gè)局中人采取何種策略而能處于優(yōu)越的地位并取得較好收益的學(xué)科,最早是由馮?諾依曼和摩根斯坦合作提出并主要應(yīng)用在經(jīng)濟(jì)學(xué)領(lǐng)域。近年來(lái),由于其將局中人作為獨(dú)立的決策主體的特點(diǎn)與多Agent系統(tǒng)的分布式?jīng)Q策的特點(diǎn)高度吻合,博弈論在多Agent系統(tǒng)領(lǐng)域得到了充分的關(guān)注。另一方面,博弈論對(duì)于環(huán)境因素和團(tuán)體因素的動(dòng)態(tài)考量也和強(qiáng)化學(xué)習(xí)的某些思路不謀而合??梢哉f(shuō),發(fā)展基于多Agent的團(tuán)隊(duì)協(xié)同學(xué)習(xí)方法在近10年來(lái)成為了計(jì)算機(jī)學(xué)界一個(gè)新興的熱點(diǎn)。Michael L.Litmaan將Q學(xué)習(xí)方法擴(kuò)展到滿足二人零和博弈的多agent環(huán)境,提出了 Minimax-Q學(xué)習(xí)方法。MichaelP.Wellman將Minimax-Q學(xué)習(xí)方法進(jìn)行修改,將其應(yīng)用范圍擴(kuò)展到滿足二人非零和馬爾可夫博弈的多agent環(huán)境,提出了 Nash-Q方法。然而,由于協(xié)作環(huán)境下學(xué)習(xí)的目標(biāo)與競(jìng)爭(zhēng)環(huán)境不同,這些方法并不能作為通用方法進(jìn)行求解,它們都有著各自的適用范圍,因此,需要針對(duì)不同的場(chǎng)景設(shè)計(jì)不同的多Agent協(xié)同學(xué)習(xí)方法。本發(fā)明利用馬爾可夫博弈模型將多Agent決策過(guò)程和博弈論充分結(jié)合起來(lái),根據(jù)團(tuán)隊(duì)馬爾可夫博弈下的得益矩陣概念來(lái)改造傳統(tǒng)的Q學(xué)習(xí)方法,使得強(qiáng) 化學(xué)習(xí)機(jī)制能夠適用于這一模型框架,從而有效地將三者結(jié)合。
【發(fā)明內(nèi)容】
[0009]技術(shù)問(wèn)題:本發(fā)明提供了一種可進(jìn)行快速、自適應(yīng)服務(wù)組合的Web服務(wù)組合方法。
[0010]技術(shù)方案:本發(fā)明的Web服務(wù)組合方法,包括以下步驟:
[0011]I)將服務(wù)組合建模為馬爾可夫博弈,并初始化系統(tǒng)參數(shù)和變量:
[0012]建模的具體過(guò)程為:
[0013]把投放的全部智能體定義為局中人集合,將Web服務(wù)的前置和后置條件作為馬爾可夫博弈過(guò)程的狀態(tài)空間,把可執(zhí)行的Web服務(wù)定義成動(dòng)作空間,動(dòng)作表示為如何將一個(gè)狀態(tài)轉(zhuǎn)換為另一個(gè)狀態(tài),將得益值定義為實(shí)際Web服務(wù)質(zhì)量參數(shù)的函數(shù);由此得到一個(gè)七元組r=〈G,S,S01S11A, T, R>, G是智能體集合,其中S是狀態(tài)集,A是聯(lián)合行為空間,A=A1X...XAiX...X An,其中Ai是第i個(gè)智能體的可用行為集,n是智能體的總個(gè)數(shù),T是狀態(tài)轉(zhuǎn)移概率函數(shù),T = SXAXS — [0,I],R是所有智能體共有的得益函數(shù),R: SXA — ?,S。是開(kāi)始狀態(tài),St是終止?fàn)顟B(tài);
[0014]初始化系統(tǒng)參數(shù)和變量的具體內(nèi)容為:
[0015]初始化折扣因子Y,0〈 Y〈I ;初始化學(xué)習(xí)率a,0〈 a〈I ;初始化瞬時(shí)得益矩陣和長(zhǎng)期得益矩陣;初始化迭代次數(shù)m為I ;
[0016]2)將開(kāi)始狀態(tài)Stl作為系統(tǒng)當(dāng)前狀態(tài);
[0017]3)根據(jù)玻爾茲曼探索策略來(lái)計(jì)算系統(tǒng)當(dāng)前狀態(tài)s下各個(gè)聯(lián)合行為的被調(diào)用概率,得到聯(lián)合行為的概率分布,然后選擇當(dāng)前狀態(tài)s下被調(diào)用概率值最大的聯(lián)合行為amax,作為當(dāng)前聯(lián)合行為,系統(tǒng)開(kāi)始調(diào)用、執(zhí)行當(dāng)前聯(lián)合行為,系統(tǒng)當(dāng)前狀態(tài)s G S ;[0018]4)細(xì)化得益函數(shù),更新瞬時(shí)得益矩陣:
[0019]首先根據(jù)實(shí)際Web服務(wù)質(zhì)量參數(shù),按照下式計(jì)算系統(tǒng)當(dāng)前狀態(tài)s下各智能體采取對(duì)應(yīng)行為時(shí)每個(gè)智能體的得益值:
【權(quán)利要求】
1.一種Web服務(wù)組合方法,其特征在于,該方法包括以下步驟: 1)將服務(wù)組合建模為馬爾可夫博弈,并初始化系統(tǒng)參數(shù)和變量: 所述建模的具體過(guò)程為: 把投放的全部智能體定義為局中人集合,將Web服務(wù)的前置和后置條件作為馬爾可夫博弈過(guò)程的狀態(tài)空間,把可執(zhí)行的Web服務(wù)定義成動(dòng)作空間,動(dòng)作表示為如何將一個(gè)狀態(tài)轉(zhuǎn)換為另一個(gè)狀態(tài),將得益值定義為實(shí)際Web服務(wù)質(zhì)量參數(shù)的函數(shù);由此得到一個(gè)七元組r=〈G,S,S01S11A, T, R>, G是智能體集合,其中S是狀態(tài)集,A是聯(lián)合行為空間,A=A1X...XAiX...X An,其中Ai是第i個(gè)智能體的可用行為集,n是智能體的總個(gè)數(shù),T是狀態(tài)轉(zhuǎn)移概率函數(shù),T = SXAXS — [O,I],R是所有智能體共有的得益函數(shù),R: SXA — ?,S。是開(kāi)始狀態(tài),St是終止?fàn)顟B(tài); 所述初始化系統(tǒng)參數(shù)和變量的具體內(nèi)容為: 初始化折扣因子Y,0〈 Y〈I ;初始化學(xué)習(xí)率a,0〈 a〈I ;初始化瞬時(shí)得益矩陣和長(zhǎng)期得益矩陣;初始化迭代次數(shù)m為I ; 2)將開(kāi)始狀態(tài)Stl作為系統(tǒng)當(dāng)前狀態(tài); 3)根據(jù)玻爾茲曼探索策略來(lái)計(jì)算系統(tǒng)當(dāng)前狀態(tài)s下各個(gè)聯(lián)合行為的被調(diào)用概率,得到聯(lián)合行為的概率分布,然后選擇當(dāng)前狀態(tài)s下被調(diào)用概率值最大的聯(lián)合行為amax,作為當(dāng)前聯(lián)合行為,系統(tǒng)開(kāi)始調(diào)用、執(zhí)行所述當(dāng)前聯(lián)合行為,系統(tǒng)當(dāng)前狀態(tài)s e S ; 4)細(xì)化得益函數(shù),更新瞬時(shí)得益矩陣: 首先根據(jù)實(shí)際Web服務(wù)質(zhì)量參數(shù),按照下式計(jì)算系統(tǒng)當(dāng)前狀態(tài)s下各智能體采取對(duì)應(yīng)行為時(shí)每個(gè)智能體的得益值:
【文檔編號(hào)】G06F15/18GK103646008SQ201310687734
【公開(kāi)日】2014年3月19日 申請(qǐng)日期:2013年12月13日 優(yōu)先權(quán)日:2013年12月13日
【發(fā)明者】王紅兵, 陳鑫, 吳琴, 王玉文 申請(qǐng)人:東南大學(xué)