set zero for kvcache after warmup to avoid nan

pengbowang-nv · pengbowang-nv · commit 674273041bc3 · 2025-08-15T09:43:18.000+08:00
Signed-off-by: Pengbo Wang &lt;221450789+pengbowang-nv@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/pyexecutor/model_engine.py b/tensorrt_llm/_torch/pyexecutor/model_engine.py
@@ -648,6 +648,14 @@ def release_batch(result: ScheduledRequests | None):
             return
 
         with contextlib.ExitStack() as stack:
+
+            def clean_up_kv_cache():
+                # Zero the KV cache; NaNs may be introduced during warmup
+                for layer_idx in kv_cache_manager.layer_offsets.keys():
+                    kv_cache_manager.get_buffers(layer_idx).zero_()
+
+            stack.callback(clean_up_kv_cache)
+
             if self._torch_compile_enabled:
 
                 def disable_optimization(backend: Backend):