基于深度強化學(xué)習(xí)的實時集中式無線網(wǎng)絡(luò)調(diào)度方法和設(shè)備

基本信息

申請?zhí)?/td> CN202111327752.5 申請日 -
公開(公告)號 CN114189937A 公開(公告)日 2022-03-15
申請公布號 CN114189937A 申請公布日 2022-03-15
分類號 H04W72/04(2009.01)I;H04W24/02(2009.01)I;H04W24/06(2009.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 電通信技術(shù);
發(fā)明人 王琪;何晨濤;黃建輝;徐勇軍 申請(專利權(quán))人 中國科學(xué)院計算技術(shù)研究所
代理機構(gòu) 北京律誠同業(yè)知識產(chǎn)權(quán)代理有限公司 代理人 祁建國
地址 100080北京市海淀區(qū)中關(guān)村科學(xué)院南路6號
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種基于深度強化學(xué)習(xí)的實時集中式無線網(wǎng)絡(luò)調(diào)度方法和系統(tǒng),包括:獲取由一個接入點和多個用戶節(jié)點互連組成的無線網(wǎng)絡(luò),在每個時隙,接入點根據(jù)所有數(shù)據(jù)流對應(yīng)的發(fā)送隊列信息,得到各數(shù)據(jù)流的狀態(tài),集合所有數(shù)據(jù)流的狀態(tài)構(gòu)成當(dāng)前時隙的環(huán)境狀態(tài),接入點獲取所有數(shù)據(jù)流的流量模型與鏈路質(zhì)量作為環(huán)境特征信息,將環(huán)境狀態(tài)和環(huán)境特征信息輸入至決策模型,接入點執(zhí)行決策模型輸出結(jié)果對應(yīng)的調(diào)度決策;接入點執(zhí)行調(diào)度決策后,收到網(wǎng)絡(luò)環(huán)境的反饋;將交互信息和環(huán)境狀態(tài)和環(huán)境特征信息作為經(jīng)驗,存儲至子區(qū)域;從經(jīng)驗回放池中抽取經(jīng)驗,以訓(xùn)練更新當(dāng)前決策模型。本發(fā)明訓(xùn)練時間不會隨數(shù)據(jù)流數(shù)量增加而快速增長,能夠快速的收斂到最優(yōu)實時吞吐量。