基于遷移和強(qiáng)化學(xué)習(xí)的移動邊緣計(jì)算系統(tǒng)任務(wù)調(diào)度方法
基本信息
申請?zhí)?/td> | CN202010748707.6 | 申請日 | - |
公開(公告)號 | CN111858009A | 公開(公告)日 | 2020-10-30 |
申請公布號 | CN111858009A | 申請公布日 | 2020-10-30 |
分類號 | G06F9/48(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 冷立雄;馬占國;宮業(yè)國 | 申請(專利權(quán))人 | 航天歐華信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 深圳市輝泓專利代理有限公司 | 代理人 | 航天歐華信息技術(shù)有限公司 |
地址 | 518000廣東省深圳市南山區(qū)桃源街道學(xué)苑大道1001號南山智園A5棟8層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明針對邊緣計(jì)算服務(wù)器的任務(wù)調(diào)度問題,提出一種基于遷移和強(qiáng)化學(xué)習(xí)的移動邊緣計(jì)算系統(tǒng)任務(wù)調(diào)度方法,首先為每個服務(wù)器構(gòu)建一個Actor?Critic網(wǎng)絡(luò)來訓(xùn)練它的調(diào)度策略;其中,Actor網(wǎng)絡(luò)通過自身狀態(tài)來決定動作,而Critic網(wǎng)絡(luò)則根據(jù)所有服務(wù)器的動作和狀態(tài)來評價(jià)該動作的好壞。所有服務(wù)器共享一個Critic網(wǎng)絡(luò)。在使用多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練多個邊緣服務(wù)器調(diào)度策略的時候,為每個服務(wù)器的調(diào)度策略構(gòu)建相同結(jié)構(gòu)的策略網(wǎng)絡(luò)。這些策略網(wǎng)絡(luò)不僅擁有相同的網(wǎng)絡(luò)層,并且每層的節(jié)點(diǎn)數(shù)目也相同。使用集中訓(xùn)練分散執(zhí)行的機(jī)制來訓(xùn)練這些策略,以此來避免因?yàn)榉?wù)器數(shù)目過多而引起的維數(shù)災(zāi)難問題。?? |
