一種面向異構(gòu)環(huán)境的基于深度強化學習的軌跡定位方法

基本信息

申請?zhí)?/td> CN202210325226.3 申請日 -
公開(公告)號 CN114727229A 公開(公告)日 2022-07-08
申請公布號 CN114727229A 申請公布日 2022-07-08
分類號 H04W4/029(2018.01)I;H04W4/33(2018.01)I;H04W64/00(2009.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G06N20/00(2019.01)I 分類 電通信技術(shù);
發(fā)明人 郭賢生;李彤;張玉坤;李林;黃健;段林甫;錢博誠 申請(專利權(quán))人 電子科技大學長三角研究院(衢州)
代理機構(gòu) 成都點睛專利代理事務(wù)所(普通合伙) 代理人 -
地址 324000浙江省衢州市柯城區(qū)芹江東路288號創(chuàng)新大廈1號樓18樓
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于室內(nèi)定位技術(shù)領(lǐng)域,具體是涉及一種面向異構(gòu)環(huán)境的基于深度強化學習的軌跡定位方法。本發(fā)明充分利用了環(huán)境中的觀測和智能體自身的歷史動態(tài)信息,以智能體的位置、環(huán)境中具有設(shè)備異構(gòu)性的RSS向量和過去n個時刻的歷史動作為狀態(tài),用于動作的選擇。再基于近場條件選擇強于RSS閾值對應(yīng)的APs,以構(gòu)成選定的APs集合,再根據(jù)集合的大小計算最終獎賞值。依據(jù)MDP中設(shè)計的各要素對智能體的位置進行估計,并以獎賞值為學習導向基于經(jīng)驗重放機制和目標網(wǎng)絡(luò)進行深度強化學習算法的迭代訓練。本發(fā)明基于路徑損耗模型得到具有設(shè)備異構(gòu)性的仿真RSS數(shù)據(jù),實驗結(jié)果證明本發(fā)明所提方法能夠?qū)崿F(xiàn)較高的定位精度,并對處理異構(gòu)RSS數(shù)據(jù)也具有一定的魯棒性。