cleanup & working quadrotor_2d_attitude

utiasDSL · Jun 6, 2024 · bf9adae · bf9adae
1 parent 50f8872
commit bf9adae
Show file tree

Hide file tree

Showing 676 changed files with 5,992 additions and 38,116 deletions.
diff --git a/.gitignore b/.gitignore
@@ -163,3 +163,5 @@ c_generated_code
 acados_ocp_nlp.json
 safe_control_gym/experiments/arxiv/quadrotor_performance/config_overrides/gpmpc_acados_quadrotor_data_eff.yaml
 safe_control_gym/experiments/arxiv/cartpole_performance/config_overrides/gp_mpc_cartpole_stabilization.yaml
+
+.idea/
diff --git a/examples/rl/config_overrides/cartpole/cartpole_stab.yaml b/examples/rl/config_overrides/cartpole/cartpole_stab.yaml
@@ -62,8 +62,8 @@ task_config:
   constraints:
   - constraint_form: default_constraint
     constrained_variable: state
-    upper_bounds: [10, 10, 5, 10]
-    lower_bounds: [-10, -10, -5, -10]
+    upper_bounds: [10, 10, 0.2, 0.2]
+    lower_bounds: [-10, -10, -0.2, -0.2]
   - constraint_form: default_constraint
     constrained_variable: input
     upper_bounds: [10]

diff --git a/examples/rl/config_overrides/cartpole/sac_cartpole.yaml b/examples/rl/config_overrides/cartpole/sac_cartpole.yaml
@@ -19,11 +19,11 @@ algo_config:
   entropy_lr: 0.001
 
   # runner args
-  max_env_steps: 10000
+  max_env_steps: 50000
   warm_up_steps: 100
   rollout_batch_size: 4
   num_workers: 1
-  max_buffer_size: 10000
+  max_buffer_size: 50000
   deque_size: 10
   eval_batch_size: 10
 

diff --git a/examples/rl/config_overrides/quadrotor_2D_attitude/ppo_quadrotor_2D_attitude.yaml b/examples/rl/config_overrides/quadrotor_2D_attitude/ppo_quadrotor_2D_attitude.yaml
@@ -0,0 +1,28 @@
+algo: ppo
+algo_config:
+  # model args
+  hidden_dim: 128
+  activation: "relu"
+
+  # loss args
+  use_gae: True
+  entropy_coef: 0.01
+
+  # optim args
+  opt_epochs: 20
+  mini_batch_size: 256
+  actor_lr: 0.001
+  critic_lr: 0.001
+
+  # runner args
+  max_env_steps: 200000
+  rollout_batch_size: 4
+  rollout_steps: 1000
+
+  # misc
+  log_interval: 2000
+  save_interval: 0
+  num_checkpoints: 0
+  eval_interval: 2000
+  eval_save_best: True
+  tensorboard: False
diff --git a/examples/rl/config_overrides/quadrotor_2D_attitude/quadrotor_2D_attitude_track.yaml b/examples/rl/config_overrides/quadrotor_2D_attitude/quadrotor_2D_attitude_track.yaml
@@ -0,0 +1,86 @@
+task_config:
+  seed: 1337
+  info_in_reset: True
+  ctrl_freq: 60
+  pyb_freq: 1200
+  physics: pyb
+  quad_type: 4
+  normalized_rl_action_space: False
+
+  init_state:
+    init_x: 0
+    init_x_dot: 0
+    init_z: 1.15
+    init_z_dot: 0
+    init_theta: 0
+  randomized_init: True
+  randomized_inertial_prop: False
+
+  init_state_randomization_info:
+    init_x:
+      distrib: 'uniform'
+      low: -0.01
+      high: 0.01
+    init_x_dot:
+      distrib: 'uniform'
+      low: -0.01
+      high: 0.01
+    init_z:
+      distrib: 'uniform'
+      low: 1.15
+      high: 1.15
+    init_z_dot:
+      distrib: 'uniform'
+      low: -0.01
+      high: 0.01
+    init_theta:
+      distrib: 'uniform'
+      low: -0.02
+      high: 0.02
+
+  task: traj_tracking
+  task_info:
+    trajectory_type: figure8
+    num_cycles: 1
+    trajectory_plane: 'xz'
+    trajectory_position_offset: [0, 1.2]
+    trajectory_scale: 0.5
+
+  inertial_prop:
+    M: 0.027
+    Iyy: 1.4e-05
+
+  episode_len_sec: 10
+  cost: rl_reward
+  obs_goal_horizon: 1
+
+  # RL Reward
+  rew_state_weight: [10.0, 1.0, 10.0, 1.0, 1.0]
+  rew_act_weight: 2.0
+  rew_exponential: True
+
+  constraints:
+    - constraint_form: default_constraint
+      constrained_variable: state
+      upper_bounds:
+        - 2
+        - 1
+        - 2
+        - 1
+        - 0.2
+      lower_bounds:
+        - -2
+        - -1
+        - 0
+        - -1
+        - -0.2
+    - constraint_form: default_constraint
+      constrained_variable: input
+      upper_bounds:
+        - 0.58
+        - 0.8
+      lower_bounds:
+        - 0.06
+        - -0.8
+  done_on_out_of_bound: False
+  done_on_violation: False
diff --git a/examples/rl/data_analysis.ipynb b/examples/rl/data_analysis.ipynb
diff --git a/examples/rl/models/model_latest_ppo.pt b/examples/rl/models/model_latest_ppo.pt
diff --git a/examples/rl/models/model_latest_sac.pt b/examples/rl/models/model_latest_sac.pt
diff --git a/examples/rl/ppo_data/0/checkpoints/model_200000.pt b/examples/rl/ppo_data/0/checkpoints/model_200000.pt
diff --git a/examples/rl/ppo_data/0/config.yaml b/examples/rl/ppo_data/0/config.yaml
@@ -0,0 +1,140 @@
+algo: ppo
+algo_config:
+  activation: relu
+  actor_lr: 0.001
+  clip_obs: 10
+  clip_param: 0.2
+  clip_reward: 10
+  critic_lr: 0.001
+  deque_size: 10
+  entropy_coef: 0.01
+  eval_batch_size: 10
+  eval_interval: 2000
+  eval_save_best: true
+  gae_lambda: 0.95
+  gamma: 0.99
+  hidden_dim: 128
+  log_interval: 2000
+  max_env_steps: 200000
+  max_grad_norm: 0.5
+  mini_batch_size: 256
+  norm_obs: false
+  norm_reward: false
+  num_checkpoints: 0
+  num_workers: 1
+  opt_epochs: 20
+  rollout_batch_size: 4
+  rollout_steps: 1000
+  save_interval: 0
+  target_kl: 0.01
+  tensorboard: false
+  training: true
+  use_clipped_value: false
+  use_gae: true
+device: cpu
+kv_overrides:
+- task_config.randomized_init=True
+output_dir: ./ppo_data/0/
+overrides:
+- ./config_overrides/quadrotor_2D_attitude/ppo_quadrotor_2D_attitude.yaml
+- ./config_overrides/quadrotor_2D_attitude/quadrotor_2D_attitude_track.yaml
+restore: null
+seed: 0
+tag: temp
+task: quadrotor
+task_config:
+  adversary_disturbance: null
+  adversary_disturbance_offset: 0.0
+  adversary_disturbance_scale: 0.01
+  constraint_penalty: -1
+  constraints:
+  - constrained_variable: state
+    constraint_form: default_constraint
+    lower_bounds:
+    - -2
+    - -1
+    - 0
+    - -1
+    - -0.2
+    upper_bounds:
+    - 2
+    - 1
+    - 2
+    - 1
+    - 0.2
+  - constrained_variable: input
+    constraint_form: default_constraint
+    lower_bounds:
+    - 0.06
+    - -0.8
+    upper_bounds:
+    - 0.58
+    - 0.8
+  cost: rl_reward
+  ctrl_freq: 60
+  disturbances: null
+  done_on_out_of_bound: false
+  done_on_violation: false
+  episode_len_sec: 10
+  gui: false
+  inertial_prop:
+    Iyy: 1.4e-05
+    M: 0.027
+  inertial_prop_randomization_info: null
+  info_in_reset: true
+  init_state:
+    init_theta: 0
+    init_x: 0
+    init_x_dot: 0
+    init_z: 1.15
+    init_z_dot: 0
+  init_state_randomization_info:
+    init_theta:
+      distrib: uniform
+      high: 0.02
+      low: -0.02
+    init_x:
+      distrib: uniform
+      high: 0.01
+      low: -0.01
+    init_x_dot:
+      distrib: uniform
+      high: 0.01
+      low: -0.01
+    init_z:
+      distrib: uniform
+      high: 1.15
+      low: 1.15
+    init_z_dot:
+      distrib: uniform
+      high: 0.01
+      low: -0.01
+  norm_act_scale: 0.1
+  normalized_rl_action_space: false
+  obs_goal_horizon: 1
+  physics: pyb
+  pyb_freq: 1200
+  quad_type: 4
+  randomized_inertial_prop: false
+  randomized_init: true
+  rew_act_weight: 2.0
+  rew_exponential: true
+  rew_state_weight:
+  - 10.0
+  - 1.0
+  - 10.0
+  - 1.0
+  - 1.0
+  seed: 1337
+  task: traj_tracking
+  task_info:
+    num_cycles: 1
+    trajectory_plane: xz
+    trajectory_position_offset:
+    - 0
+    - 1.2
+    trajectory_scale: 0.5
+    trajectory_type: figure8
+  use_constraint_penalty: false
+  verbose: false
+use_gpu: false
diff --git a/examples/rl/ppo_data/0/model_best.pt b/examples/rl/ppo_data/0/model_best.pt
diff --git a/examples/rl/ppo_data/0/model_latest.pt b/examples/rl/ppo_data/0/model_latest.pt
diff --git a/examples/rl/ppo_data/0/plots/-loss-approx_kl.jpg b/examples/rl/ppo_data/0/plots/-loss-approx_kl.jpg
diff --git a/examples/rl/ppo_data/0/plots/-loss-entropy_loss.jpg b/examples/rl/ppo_data/0/plots/-loss-entropy_loss.jpg
diff --git a/examples/rl/ppo_data/0/plots/-loss-policy_loss.jpg b/examples/rl/ppo_data/0/plots/-loss-policy_loss.jpg
diff --git a/examples/rl/ppo_data/0/plots/-loss-value_loss.jpg b/examples/rl/ppo_data/0/plots/-loss-value_loss.jpg
diff --git a/examples/rl/ppo_data/0/plots/-stat-constraint_violation.jpg b/examples/rl/ppo_data/0/plots/-stat-constraint_violation.jpg
diff --git a/examples/rl/ppo_data/0/plots/-stat-ep_constraint_violation.jpg b/examples/rl/ppo_data/0/plots/-stat-ep_constraint_violation.jpg
diff --git a/examples/rl/ppo_data/0/plots/-stat-ep_length.jpg b/examples/rl/ppo_data/0/plots/-stat-ep_length.jpg
diff --git a/examples/rl/ppo_data/0/plots/-stat-ep_return.jpg b/examples/rl/ppo_data/0/plots/-stat-ep_return.jpg
diff --git a/examples/rl/ppo_data/0/plots/-stat-ep_reward.jpg b/examples/rl/ppo_data/0/plots/-stat-ep_reward.jpg
diff --git a/examples/rl/ppo_data/0/plots/-stat_eval-constraint_violation.jpg b/examples/rl/ppo_data/0/plots/-stat_eval-constraint_violation.jpg
diff --git a/examples/rl/ppo_data/0/plots/-stat_eval-ep_length.jpg b/examples/rl/ppo_data/0/plots/-stat_eval-ep_length.jpg
diff --git a/examples/rl/ppo_data/0/plots/-stat_eval-ep_return.jpg b/examples/rl/ppo_data/0/plots/-stat_eval-ep_return.jpg
diff --git a/examples/rl/ppo_data/0/plots/-stat_eval-ep_reward.jpg b/examples/rl/ppo_data/0/plots/-stat_eval-ep_reward.jpg
diff --git a/examples/rl/ppo_data/0/plots/-stat_eval-mse.jpg b/examples/rl/ppo_data/0/plots/-stat_eval-mse.jpg
diff --git a/examples/rl/ppo_data/0/plots/-time-progress.jpg b/examples/rl/ppo_data/0/plots/-time-progress.jpg
diff --git a/examples/rl/ppo_data/0/plots/-time-step.jpg b/examples/rl/ppo_data/0/plots/-time-step.jpg
diff --git a/examples/rl/ppo_data/0/plots/-time-step_time.jpg b/examples/rl/ppo_data/0/plots/-time-step_time.jpg