基于深度強化學習的實時集中式無線網絡調度方法和設備
基本信息
申請?zhí)?/td> | CN202111327752.5 | 申請日 | - |
公開(公告)號 | CN114189937A | 公開(公告)日 | 2022-03-15 |
申請公布號 | CN114189937A | 申請公布日 | 2022-03-15 |
分類號 | H04W72/04(2009.01)I;H04W24/02(2009.01)I;H04W24/06(2009.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 電通信技術; |
發(fā)明人 | 王琪;何晨濤;黃建輝;徐勇軍 | 申請(專利權)人 | 中國科學院計算技術研究所 |
代理機構 | 北京律誠同業(yè)知識產權代理有限公司 | 代理人 | 祁建國 |
地址 | 100080北京市海淀區(qū)中關村科學院南路6號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出一種基于深度強化學習的實時集中式無線網絡調度方法和系統,包括:獲取由一個接入點和多個用戶節(jié)點互連組成的無線網絡,在每個時隙,接入點根據所有數據流對應的發(fā)送隊列信息,得到各數據流的狀態(tài),集合所有數據流的狀態(tài)構成當前時隙的環(huán)境狀態(tài),接入點獲取所有數據流的流量模型與鏈路質量作為環(huán)境特征信息,將環(huán)境狀態(tài)和環(huán)境特征信息輸入至決策模型,接入點執(zhí)行決策模型輸出結果對應的調度決策;接入點執(zhí)行調度決策后,收到網絡環(huán)境的反饋;將交互信息和環(huán)境狀態(tài)和環(huán)境特征信息作為經驗,存儲至子區(qū)域;從經驗回放池中抽取經驗,以訓練更新當前決策模型。本發(fā)明訓練時間不會隨數據流數量增加而快速增長,能夠快速的收斂到最優(yōu)實時吞吐量。 |
