fix rm and disable val in some ci

volcengine · Jan 17, 2025 · 6581369 · 6581369
1 parent c851bc2
commit 6581369
Show file tree

Hide file tree

Showing 5 changed files with 5 additions and 1 deletion.
diff --git a/tests/e2e/run_qwen_gsm8k_function_rm_no_rmpad.sh b/tests/e2e/run_qwen_gsm8k_function_rm_no_rmpad.sh
@@ -32,6 +32,7 @@ python3 -m verl.trainer.main_ppo \
     algorithm.kl_ctrl.kl_coef=0.001 \
     trainer.critic_warmup=0 \
     trainer.logger=['console'] \
+    +trainer.val_before_train=False \
     trainer.project_name='verl_example_gsm8k' \
     trainer.experiment_name='qwen_e2e_ci_function_rm' \
     trainer.n_gpus_per_node=8 \

diff --git a/tests/e2e/run_qwen_gsm8k_model_rm.sh b/tests/e2e/run_qwen_gsm8k_model_rm.sh
@@ -40,6 +40,7 @@ python3 -m verl.trainer.main_ppo \
     algorithm.kl_ctrl.kl_coef=0.001 \
     trainer.critic_warmup=0 \
     trainer.logger=['console'] \
+    +trainer.val_before_train=False \
     trainer.project_name='verl_example' \
     trainer.experiment_name='Qwen2.5-0.5B-ci_hybrid_rm' \
     trainer.n_gpus_per_node=8 \

diff --git a/tests/e2e/run_qwen_gsm8k_model_rm_no_rmpad.sh b/tests/e2e/run_qwen_gsm8k_model_rm_no_rmpad.sh
@@ -39,6 +39,7 @@ python3 -m verl.trainer.main_ppo \
     reward_model.micro_batch_size=16 \
     algorithm.kl_ctrl.kl_coef=0.001 \
     trainer.critic_warmup=0 \
+    +trainer.val_before_train=False \
     trainer.logger=['console'] \
     trainer.project_name='verl_example' \
     trainer.experiment_name='Qwen2.5-0.5B-ci_hybrid_rm' \

diff --git a/tests/e2e/run_qwen_gsm8k_model_rm_ulysses.sh b/tests/e2e/run_qwen_gsm8k_model_rm_ulysses.sh
@@ -42,6 +42,7 @@ python3 -m verl.trainer.main_ppo \
     reward_model.micro_batch_size=16 \
     algorithm.kl_ctrl.kl_coef=0.001 \
     trainer.critic_warmup=0 \
+    +trainer.val_before_train=False \
     trainer.logger=['console'] \
     trainer.project_name='verl_example' \
     trainer.experiment_name='Qwen2.5-0.5B-ci_hybrid_rm_sp2' \

diff --git a/verl/workers/fsdp_workers.py b/verl/workers/fsdp_workers.py
@@ -954,7 +954,7 @@ def compute_rm_score(self, data: DataProto):
         # perform forward computation
         with self.ulysses_sharding_manager:
             rm_data = self.ulysses_sharding_manager.preprocess_data(data=rm_data)
-
+            data = self.ulysses_sharding_manager.preprocess_data(data=data)
             micro_batches = rm_data.batch.split(self.config.micro_batch_size)
             output = []
             for micro_batch in micro_batches: