Graders fix

satyam-mishra-dev · satyam-mishra-dev · commit caa13e39df32 · 2026-04-12T21:46:54.000+05:30
diff --git a/graders.py b/graders.py
@@ -2,13 +2,16 @@
 
 from typing import Any, Dict, List
 
+_SCORE_MIN = 1e-9
+_SCORE_MAX = 1.0 - 1e-9
+
 
 def _grade_with_cap(trajectory: List[Dict[str, Any]], max_total_reward: float) -> float:
     if not trajectory or max_total_reward <= 0:
-        return 0.0
+        return _SCORE_MIN
     total_reward = sum(float(step.get("reward") or 0.0) for step in trajectory)
     score = total_reward / max_total_reward
-    return float(max(0.0, min(1.0, score)))
+    return float(max(_SCORE_MIN, min(_SCORE_MAX, score)))
 
 
 class RefundPolicyRecoveryGrader:
diff --git a/tests/__pycache__/test_metrics_baselines.cpython-310-pytest-9.0.2.pyc b/tests/__pycache__/test_metrics_baselines.cpython-310-pytest-9.0.2.pyc
diff --git a/tests/test_metrics_baselines.py b/tests/test_metrics_baselines.py
@@ -1,5 +1,10 @@
 from __future__ import annotations
 
+from shopOps.graders import (
+    FraudStockoutCascadeGrader,
+    RefundPolicyRecoveryGrader,
+    SlaQueueJuggleGrader,
+)
 from shopOps.eval import TASKS, aggregate_results, run_episode
 
 
@@ -29,3 +34,20 @@ def test_baseline_scores_are_monotonic_by_difficulty_seed_1() -> None:
         for task in TASKS
     ]
     assert scores[0] >= scores[1] >= scores[2]
+
+
+def test_graders_return_open_interval_scores() -> None:
+    graders = [
+        RefundPolicyRecoveryGrader(),
+        SlaQueueJuggleGrader(),
+        FraudStockoutCascadeGrader(),
+    ]
+    trajectories = [
+        [],
+        [{"reward": 999.0}],
+        [{"reward": -999.0}],
+    ]
+    for grader in graders:
+        for trajectory in trajectories:
+            score = grader.grade(trajectory)
+            assert 0.0 < score < 1.0