fix: clamp episode summary scores to open interval

satyam-mishra-dev · satyam-mishra-dev · commit 9e7a9d10946c · 2026-04-12T21:56:39.000+05:30
diff --git a/server/shopOps_environment.py b/server/shopOps_environment.py
@@ -53,6 +53,8 @@
 
 ENV_SCHEMA_VERSION = "2.0.0"
 INVALID_LIMIT = 4
+SCORE_MIN = 1e-9
+SCORE_MAX = 1.0 - 1e-9
 TASK_ALIASES = {
     "easy": "refund_policy_recovery",
     "medium": "sla_queue_juggle",
@@ -1185,10 +1187,11 @@ def _episode_summary(self) -> Dict[str, object]:
         business_score -= 0.35 * invalid_penalty
         business_score -= 0.25 * unresolved_ratio
         terminal_bonus = max(0.0, min(0.5, business_score * 0.5))
+        final_score = max(SCORE_MIN, min(SCORE_MAX, business_score))
         return {
             "task": self._task_name,
             "difficulty": self._difficulty,
-            "final_score": round(max(0.0, min(1.0, business_score)), 4),
+            "final_score": final_score,
             "terminal_bonus": round(terminal_bonus, 4),
             "closed_cases": closed_cases,
             "resolved_cases": resolved_cases,
diff --git a/tests/test_metrics_baselines.py b/tests/test_metrics_baselines.py
@@ -15,6 +15,7 @@ def test_episode_summary_schema() -> None:
     assert "closed_cases" in summary
     assert "reopened_cases" in summary
     assert "fraud_loss_usd" in summary
+    assert 0.0 < summary["final_score"] < 1.0
 
 
 def test_eval_aggregate_metrics() -> None:
@@ -34,6 +35,7 @@ def test_baseline_scores_are_monotonic_by_difficulty_seed_1() -> None:
         for task in TASKS
     ]
     assert scores[0] >= scores[1] >= scores[2]
+    assert all(0.0 < score < 1.0 for score in scores)
 
 
 def test_graders_return_open_interval_scores() -> None: