确定性方法 DDPG 和 TD3 复制本地路径 | 在线编辑 这里我不想细究了,也是很有名的方法,但太过细节了。这里偷懒直接放上 Doubao 的回答一部分: 我感觉最关键是要知道这里的 DDPG 和 TD3 是直接输出动作 a,而不是像之前的方法直接输出 \(\mu, \sigma\),然后再从中得到动作。 Was this page helpful? Thanks! You can leave some advices in the comment section below. Comments