Dqn算法 - 搜索

约 520,000 个结果

在新选项卡中打开链接

时间不限

zhihu.com
https://www.zhihu.com › question
DQN 网络的算法原理是怎样的？ - 知乎
知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、 …
zhihu.com
https://www.zhihu.com › question
DQN算法的Q-Loss是否必须收敛？ - 知乎
DQN算法的Q-Loss是否必须收敛？正在研究的问题中使用了DQN算法，我已经调整了一些超参数（网络架构，探索，学习率），每个epiode的奖励在训练期间增加，Q值也在收敛（参见图1），但…
zhihu.com
https://www.zhihu.com › question
关于DQN(deep Q-network)，代码中的参数如何取? - 知乎
DQN（Deep Q-Network）是一种深度强化学习算法，用于解决离散动作空间的马尔可夫决策问题。在实现DQN算法时，参数设置非常重要，因为不同的参数设置会对算法的性能和收敛速度产生重大影响。下面是一些方法，帮助您选择正确的参数。
zhihu.com
https://www.zhihu.com › tardis › bd › art
强化学习——从Q-Learning到DQN到底发生了什么？
强化学习——从Q-Learning到DQN到底发生了什么？
zhihu.com
https://www.zhihu.com › question
DQN算法? - 知乎
dqn算法为什么有的情况下对Q值进行指数加权操作，有的情况下没有呢。比如下边两张图对比
zhihu.com
https://www.zhihu.com › question
有哪些MBRL算法能使用比DQN更少的步数解决CartPoleV1？ - 知乎
使用原始DQN算法，大约8k步就能达到满分了。听说MBRL的SampleEfficiency比较高，于是尝试了DreamerV3算法…
zhihu.com
https://www.zhihu.com › question
究竟该如何设置一个DQN的神经网络的各项参数？ - 知乎
用pytorch根据教程写了个很简单的DQN程序。中间是50个神经元的一层神经网络。memorysiz
zhihu.com
https://www.zhihu.com › question
DQN算法，raise NotImplementedError问题是什么原因? - 知乎
DQN算法，raise NotImplementedError问题是什么原因? 错误原因如下 CSDN上是说缩进错误，但看过所有函数好像都未出现缩进错误 Traceback (most recent call last): Fil…
zhihu.com
https://www.zhihu.com › question
强化学习中将DQN用在连续控制任务中的NAF算法怎么理解？ - 知乎
2019年12月10日 · 泻药吧。我不清楚这个算法的具体实现思路，因而只能就题主提出的这俩问题来回答（不喜请合理喷）：
zhihu.com
https://www.zhihu.com › question
强化学习 DQN 如何做动态障碍物避障？ - 知乎
知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、 …
分页
- 1
- 2
- 3
- 4