Skip to content

确定性方法 DDPG 和 TD3

复制本地路径 | 在线编辑

这里我不想细究了,也是很有名的方法,但太过细节了。这里偷懒直接放上 Doubao 的回答一部分:

我感觉最关键是要知道这里的 DDPG 和 TD3 是直接输出动作 a,而不是像之前的方法直接输出 \(\mu, \sigma\),然后再从中得到动作。

Comments