fix: keep rewards and serialized scores in open interval

satyam-mishra-dev · satyam-mishra-dev · commit 635eb1ec7b22 · 2026-04-12T22:15:31.000+05:30
diff --git a/eval.py b/eval.py
@@ -21,6 +21,8 @@
 from .server.shopOps_environment import ShopopsEnvironment
 
 OUTPUT_DIR = Path("outputs/evals")
+SCORE_MIN = 1e-9
+SCORE_MAX = 1.0 - 1e-9
 TASKS = [
     "refund_policy_recovery",
     "sla_queue_juggle",
@@ -33,6 +35,10 @@
 }
 
 
+def _open_interval_score(value: float) -> float:
+    return max(SCORE_MIN, min(SCORE_MAX, value))
+
+
 def _priority_rank(priority: CasePriority) -> int:
     return {
         CasePriority.LOW: 0,
@@ -204,9 +210,10 @@ def aggregate_results(results: List[Dict[str, object]]) -> Dict[str, object]:
         fraud_loss += float(summary.get("fraud_loss_usd", 0.0))
 
     count = len(results)
+    avg_final_score = _open_interval_score(total_score / count)
     return {
         "episodes": count,
-        "avg_final_score": round(total_score / count, 4),
+        "avg_final_score": avg_final_score,
         "avg_total_reward": round(total_reward / count, 4),
         "avg_closed_cases": round(closed_cases / count, 4),
         "avg_reopened_cases": round(reopened_cases / count, 4),
diff --git a/inference.py b/inference.py
@@ -39,6 +39,8 @@
     "sla_queue_juggle": 5.4,
     "fraud_stockout_cascade": 7.6,
 }
+SCORE_MIN = 1e-9
+SCORE_MAX = 1.0 - 1e-9
 
 SYSTEM_PROMPT = (
     "You are operating a customer-ops command center. Return ONLY a JSON object with keys: "
@@ -84,6 +86,10 @@ def _log_end(success: bool, steps: int, score: float, rewards: List[float]) -> N
     )
 
 
+def _open_interval_score(value: float) -> float:
+    return max(SCORE_MIN, min(SCORE_MAX, value))
+
+
 def _parse_action(text: str) -> Dict[str, Any]:
     try:
         return json.loads(text)
@@ -260,7 +266,7 @@ def _run_task(client: OpenAI, task: str) -> None:
             _log_step(step=step, action=action_str, reward=reward, done=done, error=error)
 
         score = sum(rewards) / MAX_TOTAL_REWARD[task] if MAX_TOTAL_REWARD[task] > 0 else 0.0
-        score = max(0.0, min(1.0, score))
+        score = _open_interval_score(score)
         success = score >= 0.4
     finally:
         _log_end(success=success, steps=steps_taken, score=score, rewards=rewards)
diff --git a/scripts/meta_review_eval.py b/scripts/meta_review_eval.py
@@ -22,6 +22,8 @@
     "sla_queue_juggle": 5.4,
     "fraud_stockout_cascade": 7.6,
 }
+SCORE_MIN = 1e-9
+SCORE_MAX = 1.0 - 1e-9
 
 
 @dataclass
@@ -36,6 +38,10 @@ class EpisodeStats:
 PolicyFn = Callable[[ShopopsObservation], ShopopsAction]
 
 
+def _open_interval_score(value: float) -> float:
+    return max(SCORE_MIN, min(SCORE_MAX, value))
+
+
 def _run_policy(task: str, seed: int, policy: PolicyFn) -> EpisodeStats:
     env = ShopopsEnvironment(debug_mode=True)
     obs = env.reset(seed=seed, task=task)
@@ -52,7 +58,7 @@ def _run_policy(task: str, seed: int, policy: PolicyFn) -> EpisodeStats:
             return EpisodeStats(
                 total_reward=round(total_reward, 4),
                 normalized_reward=round(
-                    max(0.0, min(1.0, total_reward / NORMALIZATION_CAPS[task])),
+                    _open_interval_score(total_reward / NORMALIZATION_CAPS[task]),
                     4,
                 ),
                 final_score=float(summary.get("final_score", 0.0)),
diff --git a/server/shopOps_environment.py b/server/shopOps_environment.py
@@ -55,6 +55,7 @@
 INVALID_LIMIT = 4
 SCORE_MIN = 1e-9
 SCORE_MAX = 1.0 - 1e-9
+STEP_REWARD_MIN = 0.01
 TASK_ALIASES = {
     "easy": "refund_policy_recovery",
     "medium": "sla_queue_juggle",
@@ -336,7 +337,7 @@ def step(
 
         if self._is_done():
             return self._build_observation(
-                reward=0.0,
+                reward=STEP_REWARD_MIN,
                 done=True,
                 info={"already_done": True, "termination_reason": self._termination_reason()},
             )
@@ -349,7 +350,7 @@ def step(
             self._state.step_count += 1
             self._advance_events()
             self._update_sla_breaches()
-            reward = -0.25
+            reward = STEP_REWARD_MIN
             self._cumulative_reward += reward
             self._latest_tool_result = ToolResult(
                 action_type=action.action_type,
@@ -364,8 +365,8 @@ def step(
                 "last_action_error": validation_error,
                 "reward_breakdown": {
                     "information_gain": 0.0,
-                    "workflow_progress": -0.15,
-                    "business_outcome": -0.1,
+                    "workflow_progress": STEP_REWARD_MIN,
+                    "business_outcome": STEP_REWARD_MIN,
                 },
             }
             if done:
@@ -793,9 +794,9 @@ def _inspect_order(self, case: CaseInternal, action: ShopopsAction) -> ActionOut
         del action
         if "order" in case.completed_checks:
             return ActionOutcome(
-                reward=-0.03,
+                reward=0.02,
                 summary="Order details were already inspected.",
-                details={"reward_breakdown": {"information_gain": -0.03}},
+                details={"reward_breakdown": {"information_gain": 0.02}},
             )
         case.completed_checks.add("order")
         case.order_summary = case.order_details_text
@@ -812,9 +813,9 @@ def _inspect_policy(self, case: CaseInternal, action: ShopopsAction) -> ActionOu
         del action
         if "policy" in case.completed_checks:
             return ActionOutcome(
-                reward=-0.03,
+                reward=0.02,
                 summary="Policy details were already inspected.",
-                details={"reward_breakdown": {"information_gain": -0.03}},
+                details={"reward_breakdown": {"information_gain": 0.02}},
             )
         case.completed_checks.add("policy")
         case.policy_summary = case.policy_details_text or "No special policy guidance for this case."
@@ -832,9 +833,9 @@ def _inspect_inventory(self, case: CaseInternal, action: ShopopsAction) -> Actio
         del action
         if "inventory" in case.completed_checks:
             return ActionOutcome(
-                reward=-0.03,
+                reward=0.02,
                 summary="Inventory was already inspected.",
-                details={"reward_breakdown": {"information_gain": -0.03}},
+                details={"reward_breakdown": {"information_gain": 0.02}},
             )
         case.completed_checks.add("inventory")
         sku = case.replacement_sku or "none"
@@ -853,9 +854,9 @@ def _inspect_customer_history(self, case: CaseInternal, action: ShopopsAction) -
         del action
         if "history" in case.completed_checks:
             return ActionOutcome(
-                reward=-0.03,
+                reward=0.02,
                 summary="Customer history was already inspected.",
-                details={"reward_breakdown": {"information_gain": -0.03}},
+                details={"reward_breakdown": {"information_gain": 0.02}},
             )
         case.completed_checks.add("history")
         case.history_summary = case.history_details_text or "No significant customer history was found."
@@ -873,21 +874,21 @@ def _request_evidence(self, case: CaseInternal, action: ShopopsAction) -> Action
         del action
         if not case.needs_evidence:
             return ActionOutcome(
-                reward=-0.05,
+                reward=0.01,
                 summary="This case does not require customer evidence.",
-                details={"reward_breakdown": {"workflow_progress": -0.05}},
+                details={"reward_breakdown": {"workflow_progress": 0.01}},
             )
         if case.evidence_status == EvidenceStatus.REQUESTED:
             return ActionOutcome(
-                reward=-0.03,
+                reward=0.02,
                 summary="Evidence request is already pending.",
-                details={"reward_breakdown": {"workflow_progress": -0.03}},
+                details={"reward_breakdown": {"workflow_progress": 0.02}},
             )
         if case.evidence_status in {EvidenceStatus.RECEIVED, EvidenceStatus.INSUFFICIENT}:
             return ActionOutcome(
-                reward=-0.02,
+                reward=0.02,
                 summary="Evidence result is already available.",
-                details={"reward_breakdown": {"workflow_progress": -0.02}},
+                details={"reward_breakdown": {"workflow_progress": 0.02}},
             )
         case.evidence_status = EvidenceStatus.REQUESTED
         case.status = CaseStatus.WAITING_CUSTOMER
@@ -912,21 +913,21 @@ def _contact_carrier(self, case: CaseInternal, action: ShopopsAction) -> ActionO
         del action
         if not case.needs_carrier_contact:
             return ActionOutcome(
-                reward=-0.05,
+                reward=0.01,
                 summary="Carrier contact is not needed for this case.",
-                details={"reward_breakdown": {"workflow_progress": -0.05}},
+                details={"reward_breakdown": {"workflow_progress": 0.01}},
             )
         if case.carrier_status == CarrierStatus.INVESTIGATING:
             return ActionOutcome(
-                reward=-0.03,
+                reward=0.02,
                 summary="Carrier investigation is already pending.",
-                details={"reward_breakdown": {"workflow_progress": -0.03}},
+                details={"reward_breakdown": {"workflow_progress": 0.02}},
             )
         if case.carrier_status in {CarrierStatus.APPROVED, CarrierStatus.DENIED}:
             return ActionOutcome(
-                reward=-0.02,
+                reward=0.02,
                 summary="Carrier result is already available.",
-                details={"reward_breakdown": {"workflow_progress": -0.02}},
+                details={"reward_breakdown": {"workflow_progress": 0.02}},
             )
         case.carrier_status = CarrierStatus.INVESTIGATING
         case.status = CaseStatus.WAITING_CARRIER
@@ -956,13 +957,13 @@ def _issue_refund(self, case: CaseInternal, action: ShopopsAction) -> ActionOutc
         fit = self._refund_fit(case, amount)
         workflow = self._check_coverage(case)
         business = 0.22 + fit
-        workflow_reward = 0.08 if workflow >= 1.0 else max(-0.08, 0.08 * (workflow - 1.0))
+        workflow_reward = 0.08 if workflow >= 1.0 else max(0.01, 0.08 * workflow)
         if case.fraud_signal == FraudSignal.HIGH and case.evidence_status in {
             EvidenceStatus.NOT_REQUESTED,
             EvidenceStatus.REQUESTED,
         }:
             business -= 0.18
-        reward = max(-0.2, business + workflow_reward)
+        reward = max(STEP_REWARD_MIN, business + workflow_reward)
         case.resolution_summary = f"Refund of ${amount:.2f} prepared."
         return ActionOutcome(
             reward=reward,
@@ -982,9 +983,9 @@ def _ship_replacement(self, case: CaseInternal, action: ShopopsAction) -> Action
         if units <= 0:
             self._stockouts += 1
             return ActionOutcome(
-                reward=-0.2,
+                reward=STEP_REWARD_MIN,
                 summary="Replacement failed because inventory is exhausted.",
-                details={"reward_breakdown": {"business_outcome": -0.2}},
+                details={"reward_breakdown": {"business_outcome": STEP_REWARD_MIN}},
             )
         self._inventory[sku] = units - 1
         case.resolution_action = ActionType.SHIP_REPLACEMENT
@@ -995,7 +996,7 @@ def _ship_replacement(self, case: CaseInternal, action: ShopopsAction) -> Action
         workflow = self._check_coverage(case)
         expedite_bonus = 0.08 if action.expedite == case.preferred_expedite else -0.04
         resolution_bonus = 0.26 if case.preferred_resolution == ActionType.SHIP_REPLACEMENT else -0.12
-        reward = max(-0.2, resolution_bonus + expedite_bonus + 0.06 * workflow)
+        reward = max(STEP_REWARD_MIN, resolution_bonus + expedite_bonus + 0.06 * workflow)
         case.resolution_summary = (
             f"Replacement for {sku} queued{' with expedite' if action.expedite else ''}."
         )
@@ -1038,9 +1039,9 @@ def _add_internal_note(self, case: CaseInternal, action: ShopopsAction) -> Actio
         note_code = action.note_code or "general_note"
         if note_code in case.notes:
             return ActionOutcome(
-                reward=-0.02,
+                reward=0.02,
                 summary="That note already exists on the case.",
-                details={"reward_breakdown": {"workflow_progress": -0.02}},
+                details={"reward_breakdown": {"workflow_progress": 0.02}},
             )
         case.notes.append(note_code)
         reward = 0.05 if case.requires_note else 0.01
@@ -1070,12 +1071,12 @@ def _close_case(self, case: CaseInternal, action: ShopopsAction) -> ActionOutcom
         )
         case.resolution_summary = case.resolution_summary or "Case closed."
         return ActionOutcome(
-            reward=max(-0.25, reward),
+            reward=max(STEP_REWARD_MIN, reward),
             summary=f"Case {case.case_id} closed.",
             details={
                 "reward_breakdown": {
                     "workflow_progress": 0.12,
-                    "business_outcome": max(-0.37, reward - 0.12),
+                    "business_outcome": max(STEP_REWARD_MIN, reward - 0.12),
                 },
                 "closure_quality": round(quality, 4),
                 "remaining_blockers": blockers,
@@ -1087,15 +1088,15 @@ def _switch_case(self, case: CaseInternal, action: ShopopsAction) -> ActionOutco
         target = self._case_by_id(action.case_id or "")
         if target is None:
             return ActionOutcome(
-                reward=-0.1,
+                reward=STEP_REWARD_MIN,
                 summary="Cannot switch because the target case does not exist.",
-                details={"reward_breakdown": {"workflow_progress": -0.1}},
+                details={"reward_breakdown": {"workflow_progress": STEP_REWARD_MIN}},
             )
         if target.case_id == self._active_case_id:
             return ActionOutcome(
-                reward=-0.02,
+                reward=0.02,
                 summary="The target case is already active.",
-                details={"reward_breakdown": {"workflow_progress": -0.02}},
+                details={"reward_breakdown": {"workflow_progress": 0.02}},
             )
         current = self._active_case()
         self._active_case_id = target.case_id
diff --git a/tests/test_metrics_baselines.py b/tests/test_metrics_baselines.py
@@ -27,6 +27,7 @@ def test_eval_aggregate_metrics() -> None:
     assert "avg_final_score" in summary
     assert "avg_total_reward" in summary
     assert "avg_closed_cases" in summary
+    assert 0.0 < summary["avg_final_score"] < 1.0
 
 
 def test_baseline_scores_are_monotonic_by_difficulty_seed_1() -> None:
diff --git a/tests/test_validation_resources_rewards.py b/tests/test_validation_resources_rewards.py
@@ -6,6 +6,7 @@
     ShopopsAction,
 )
 from shopOps.server.shopOps_environment import ShopopsEnvironment
+from shopOps.eval import baseline_policy, TASKS
 
 
 def test_validation_missing_refund_amount() -> None:
@@ -69,3 +70,21 @@ def test_escalation_requires_reason() -> None:
 
     obs = env.step(ShopopsAction(action_type=ActionType.ESCALATE_RISK))
     assert obs.metadata["last_action_error"] == "escalation_reason_required"
+
+
+def test_all_returned_rewards_stay_in_open_interval() -> None:
+    for task in TASKS:
+        env = ShopopsEnvironment(debug_mode=True)
+        obs = env.reset(seed=1, task=task)
+        while True:
+            obs = env.step(baseline_policy(obs))
+            assert obs.reward is not None
+            assert 0.0 < obs.reward < 1.0
+            if obs.done:
+                break
+
+        env = ShopopsEnvironment(debug_mode=True)
+        env.reset(seed=1, task=task)
+        invalid = env.step(ShopopsAction(action_type=ActionType.CLOSE_CASE))
+        assert invalid.reward is not None
+        assert 0.0 < invalid.reward < 1.0