确定性方法 DDPG 和 TD3
复制本地路径 | 在线编辑
这里我不想细究了,也是很有名的方法,但太过细节了。这里偷懒直接放上 Doubao 的回答一部分:

我感觉最关键是要知道这里的 DDPG 和 TD3 是直接输出动作 a,而不是像之前的方法直接输出 \(\mu, \sigma\),然后再从中得到动作。
这里我不想细究了,也是很有名的方法,但太过细节了。这里偷懒直接放上 Doubao 的回答一部分:

我感觉最关键是要知道这里的 DDPG 和 TD3 是直接输出动作 a,而不是像之前的方法直接输出 \(\mu, \sigma\),然后再从中得到动作。