takuseno · joshuaspear · Aug 4, 2023 · Aug 4, 2023 · Aug 10, 2023 · Aug 10, 2023
diff --git a/.gitignore b/.gitignore
@@ -14,7 +14,7 @@ docs/d3rlpy*.rst
 docs/modules.rst
 docs/references/generated
 coverage.xml
-.coverage
+.coverage*
 .mypy_cache
 .ipynb_checkpoints
 build

diff --git a/d3rlpy/algos/qlearning/cql.py b/d3rlpy/algos/qlearning/cql.py
@@ -206,8 +206,9 @@ def inner_update(self, batch: TorchMiniBatch) -> Dict[str, float]:
             alpha_loss, alpha = self._impl.update_alpha(batch)
             metrics.update({"alpha_loss": alpha_loss, "alpha": alpha})
 
-        critic_loss = self._impl.update_critic(batch)
+        critic_loss, conservative_loss = self._impl.update_critic(batch)
         metrics.update({"critic_loss": critic_loss})
+        metrics.update({"conservative_loss": conservative_loss})
 
         actor_loss = self._impl.update_actor(batch)
         metrics.update({"actor_loss": actor_loss})

diff --git a/d3rlpy/algos/qlearning/torch/cql_impl.py b/d3rlpy/algos/qlearning/torch/cql_impl.py
@@ -75,7 +75,23 @@ def compute_critic_loss(
         conservative_loss = self._compute_conservative_loss(
             batch.observations, batch.actions, batch.next_observations
         )
-        return loss + conservative_loss
+        return loss + conservative_loss, conservative_loss
+
+    @train_api
+    def update_critic(self, batch: TorchMiniBatch) -> np.array:
+        self._critic_optim.zero_grad()
+
+        q_tpn = self.compute_target(batch)
+
+        loss, cql_loss = self.compute_critic_loss(batch, q_tpn)
+
+        loss.backward()
+        self._critic_optim.step()
+
+        critic_loss = float(loss.cpu().detach().numpy())
+        cql_loss = float(cql_loss.cpu().detach().numpy())
+        res = np.array([critic_loss, cql_loss])
+        return res
 
     @train_api
     def update_alpha(self, batch: TorchMiniBatch) -> Tuple[float, float]:
@@ -221,7 +237,8 @@ def compute_loss(
         conservative_loss = self._compute_conservative_loss(
             batch.observations, batch.actions.long()
         )
-        return loss + self._alpha * conservative_loss, conservative_loss
+        cql_loss = self._alpha * conservative_loss
+        return loss + cql_loss, cql_loss
 
     def _compute_conservative_loss(
         self, obs_t: torch.Tensor, act_t: torch.Tensor