finally fixing tests

SalmanMohammadi · SalmanMohammadi · commit 05620fe31cce · 2024-09-15T19:44:41.000+01:00
diff --git a/tests/recipes/test_lora_dpo_single_device.py b/tests/recipes/test_lora_dpo_single_device.py
@@ -41,6 +41,7 @@ def _get_test_config_overrides(self, dtype_str: str = "fp32", epochs: int = 2):
             "log_every_n_steps=1",
             "gradient_accumulation_steps=1",
             "clip_grad_norm=100",
+            "tokenizer.max_seq_len=512",
         ] + dummy_stack_exchange_dataset_config()
 
     @pytest.mark.parametrize("save_adapter_weights_only", [False, True])
@@ -93,6 +94,8 @@ def test_training_state_on_resume(
 
         expected_loss_values = get_loss_values_from_metric_logger(log_file)
 
+        resumed_log_dir = (tmpdir / "resumed/").mkdir()
+        resumed_log_file = gen_log_file_name(resumed_log_dir)
         # Resume training
         cmd_2 = f"""
         tune run lora_dpo_single_device \
@@ -106,7 +109,7 @@ def test_training_state_on_resume(
             checkpointer.output_dir={tmpdir} \
             checkpointer.model_type=LLAMA2 \
             resume_from_checkpoint=True \
-            metric_logger.filename={log_file} \
+            metric_logger.filename={resumed_log_file} \
             tokenizer.path=/tmp/test-artifacts/tokenizer.model \
             tokenizer.prompt_template=null \
         """.split()
@@ -116,10 +119,10 @@ def test_training_state_on_resume(
             runpy.run_path(TUNE_PATH, run_name="__main__")
 
         # Second epoch only
-        loss_values = get_loss_values_from_metric_logger(log_file)[:2]
+        resumed_loss_values = get_loss_values_from_metric_logger(resumed_log_file)
 
         torch.testing.assert_close(
-            loss_values, expected_loss_values, rtol=1e-5, atol=1e-5
+            resumed_loss_values[:2], expected_loss_values[2:], rtol=1e-5, atol=1e-5
         )
 
     @pytest.mark.integration_test