fix: address OpenRouter PR review comments

oglenyaboss · oglenyaboss · commit 1f9f67a7cf74 · 2026-04-18T23:41:35.000+05:00
- Embedder: raise ValueError in __init__ for unknown models instead of
  silently falling back to 768 dims, which would mis-size stored vectors
  against the model's real output and corrupt the vector store.
- Provider: drop **_kwargs catchall and accept cost_tracker explicitly so
  unknown kwargs from future registry changes fail loudly instead of
  vanishing.
- Provider: switch max_completion_tokens → max_tokens in generate() and
  stream_chat(). Per OpenRouter API docs, max_tokens is the universal
  parameter across the 200+ proxied models; max_completion_tokens is an
  OpenAI-specific newer name not all proxied models accept.
diff --git a/packages/core/src/repowise/core/providers/embedding/openrouter.py b/packages/core/src/repowise/core/providers/embedding/openrouter.py
@@ -46,13 +46,21 @@ def __init__(
             raise ValueError(
                 "OpenRouter API key required. Pass api_key= or set OPENROUTER_API_KEY env var."
             )
+        if model not in self._DIMS:
+            known = ", ".join(sorted(self._DIMS))
+            raise ValueError(
+                f"Unknown embedding model {model!r}. Stored vectors would be mis-sized "
+                f"against the model's real output, silently corrupting the vector store. "
+                f"Add {model!r} to OpenRouterEmbedder._DIMS with its correct dimension count, "
+                f"or pick a known model: {known}."
+            )
         self._model = model
         self._timeout = timeout
         self._client: object | None = None
 
     @property
     def dimensions(self) -> int:
-        return self._DIMS.get(self._model, 768)
+        return self._DIMS[self._model]
 
     async def embed(self, texts: list[str]) -> list[list[float]]:
         """Embed a batch of texts using OpenRouter.
diff --git a/packages/core/src/repowise/core/providers/llm/openrouter.py b/packages/core/src/repowise/core/providers/llm/openrouter.py
@@ -36,9 +36,12 @@
     RateLimitError,
 )
 
-from typing import Any, AsyncIterator
+from typing import TYPE_CHECKING, Any, AsyncIterator
 from repowise.core.rate_limiter import RateLimiter
 
+if TYPE_CHECKING:
+    from repowise.core.generation.cost_tracker import CostTracker
+
 log = structlog.get_logger(__name__)
 
 _MAX_RETRIES = 3
@@ -58,11 +61,9 @@ class OpenRouterProvider(BaseProvider):
         rate_limiter: Optional RateLimiter instance.
         http_referer: Optional site URL for OpenRouter rankings/leaderboards.
         app_title:    App name shown on OpenRouter dashboard. Defaults to "repowise".
-
-    Note:
-        Cost tracking is not supported for OpenRouter. It proxies 200+ models
-        with varying prices, and repowise's fallback pricing would show inflated
-        numbers. Check the OpenRouter dashboard for actual costs.
+        cost_tracker: Accepted for registry compatibility but not used — OpenRouter
+                      proxies 200+ models with varying prices, so repowise's fallback
+                      pricing would be misleading. Check the OpenRouter dashboard.
     """
 
     def __init__(
@@ -73,7 +74,7 @@ def __init__(
         rate_limiter: RateLimiter | None = None,
         http_referer: str | None = None,
         app_title: str = "repowise",
-        **_kwargs: Any,
+        cost_tracker: "CostTracker | None" = None,
     ) -> None:
         resolved_key = api_key or os.environ.get("OPENROUTER_API_KEY")
         if not resolved_key:
@@ -153,7 +154,7 @@ async def _generate_with_retry(
         try:
             response = await self._client.chat.completions.create(
                 model=self._model,
-                max_completion_tokens=max_tokens,
+                max_tokens=max_tokens,
                 temperature=temperature,
                 messages=[
                     {"role": "system", "content": system_prompt},
@@ -205,7 +206,7 @@ async def stream_chat(
         full_messages = [{"role": "system", "content": system_prompt}, *messages]
         kwargs: dict[str, Any] = {
             "model": self._model,
-            "max_completion_tokens": max_tokens,
+            "max_tokens": max_tokens,
             "temperature": temperature,
             "messages": full_messages,
             "stream": True,
diff --git a/tests/unit/test_persistence/test_openrouter_embedder.py b/tests/unit/test_persistence/test_openrouter_embedder.py
@@ -51,9 +51,10 @@ def test_dimensions_openai_large():
     assert emb.dimensions == 3072
 
 
-def test_dimensions_unknown_model_defaults_to_768():
-    emb = OpenRouterEmbedder(api_key="k", model="some/future-model")
-    assert emb.dimensions == 768
+def test_unknown_model_raises_at_construction():
+    """Unknown models must fail fast — a silent dim fallback would corrupt the vector store."""
+    with pytest.raises(ValueError, match="Unknown embedding model"):
+        OpenRouterEmbedder(api_key="k", model="some/future-model")
 
 
 # ---------------------------------------------------------------------------
diff --git a/tests/unit/test_providers/test_openrouter_provider.py b/tests/unit/test_providers/test_openrouter_provider.py
@@ -69,6 +69,21 @@ def test_no_headers_when_empty():
     assert not headers.get("X-Title")
 
 
+def test_accepts_cost_tracker_kwarg():
+    """cost_tracker is accepted for registry parity but ignored (OpenRouter proxies
+    200+ models with varying prices; repowise's fallback pricing would be misleading)."""
+    sentinel = object()
+    p = OpenRouterProvider(api_key="sk-or-test", cost_tracker=sentinel)
+    assert p.provider_name == "openrouter"
+
+
+def test_rejects_unknown_kwargs():
+    """Unknown kwargs must fail loud — silently swallowing them would hide future
+    registry changes (e.g. new tier=, budget= params passed through)."""
+    with pytest.raises(TypeError):
+        OpenRouterProvider(api_key="sk-or-test", future_param="oops")
+
+
 # ---------------------------------------------------------------------------
 # Successful generation
 # ---------------------------------------------------------------------------
@@ -132,7 +147,7 @@ async def fake_create(**kwargs):
 
     kw = captured_kwargs[0]
     assert kw["model"] == "google/gemini-3.1-flash-lite-preview"
-    assert kw["max_completion_tokens"] == 2048
+    assert kw["max_tokens"] == 2048
     assert kw["temperature"] == 0.5
     messages = kw["messages"]
     assert messages[0] == {"role": "system", "content": "system msg"}