决定性策略;
This paper elaborates on the low learning efficiency in reinforcement learning due to improper generalization and random exploration policy under deterministic MDPS and proposes a hierarchical reinforcement learning algorithm based on system model.
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法。
纳米英语 · 高考英语
纳米英语 · 四六级英语
纳米英语 · 双语娱乐资讯
纳米英语 · 英语词汇