一種基于多智能體強(qiáng)化學(xué)習(xí)的網(wǎng)內(nèi)服務(wù)功能部署方法

基本信息

申請(qǐng)?zhí)?/td> CN202011470782.7 申請(qǐng)日 -
公開(公告)號(hào) CN112769594A 公開(公告)日 2021-05-07
申請(qǐng)公布號(hào) CN112769594A 申請(qǐng)公布日 2021-05-07
分類號(hào) G06N20/00(2019.01)I;H04L12/801(2013.01)I;H04L12/24(2006.01)I 分類 -
發(fā)明人 姚海鵬;朱玉超;買天樂;忻向軍;張尼;江亮;劉韻潔 申請(qǐng)(專利權(quán))人 中交信通網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 北京欣鼎專利代理事務(wù)所(普通合伙) 代理人 王陽虹
地址 100089北京市海淀區(qū)西土城路10號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于多智能體強(qiáng)化學(xué)習(xí)的網(wǎng)內(nèi)服務(wù)功能部署方法,包括以下步驟:S1、每個(gè)參與者分別更新策略π的參數(shù);S2、每個(gè)評(píng)論家分別更新動(dòng)作Q值參數(shù);S3、定義θ={θ1,θ2,....θN}為N個(gè)agent(actor)的參數(shù),相應(yīng)的π={π1,π2,....πN}分別表示其策略;S4、對(duì)于在SFC部署過程中的用戶,將第i個(gè)agent的累計(jì)預(yù)期獎(jiǎng)勵(lì)的策略梯度定義;S5、每個(gè)agent的Qi是相互獨(dú)立進(jìn)行訓(xùn)練學(xué)習(xí)的,其更新方法可以表示為:S6、定義來表示第i個(gè)agent的策略對(duì)第j個(gè)agent策略的函數(shù)近似,它的近似代價(jià)是一個(gè)帶有熵正則化器的對(duì)數(shù)代價(jià)函數(shù)。本發(fā)明能夠綜合分布式和集中式方法的優(yōu)點(diǎn),既能夠快速反應(yīng)用戶需求,保護(hù)用戶隱私,提高用戶服務(wù)體驗(yàn)。又能夠考慮服務(wù)提供商運(yùn)營成本,促使網(wǎng)絡(luò)負(fù)載均衡,提高網(wǎng)絡(luò)資源利用率。??