Fixed DDPG example (#667)

2026-01-09 06:58:11 -05:00 · 2023-03-09 20:49:52 +01:00
parent 022c5835fc
commit da7fb4b227
1 changed files with 2 additions and 2 deletions
--- a/examples/deep_deterministic_policy_gradient.py
+++ b/examples/deep_deterministic_policy_gradient.py
@@ -173,12 +173,12 @@ class DeepDeterministicPolicyGradient:
    for param, target_param in zip(
        optim.get_parameters(self.actor), optim.get_parameters(self.target_actor)
    ):
-      target_param.assign(param * tau + target_param * (1.0 - tau))
+      target_param.assign(param.detach() * tau + target_param * (1.0 - tau))

    for param, target_param in zip(
        optim.get_parameters(self.critic), optim.get_parameters(self.target_critic)
    ):
-      target_param.assign(param * tau + target_param * (1.0 - tau))
+      target_param.assign(param.detach() * tau + target_param * (1.0 - tau))

  def choose_action(self, state: Tensor, evaluate: bool = False) -> NDArray:
    mu = self.actor.forward(state, self.max_action)