Add support for edge_ngram

isaacvando · isaacvando · commit 2156779d6789 · 2026-04-17T15:24:02.000-05:00
diff --git a/paradedb/sqlalchemy/tokenizer.py b/paradedb/sqlalchemy/tokenizer.py
@@ -265,6 +265,38 @@ def ngram(
     )
 
 
+def edge_ngram(
+    *,
+    alias: str | None = None,
+    min_gram: int | None = None,
+    max_gram: int | None = None,
+    args: Sequence[Any] | None = None,
+    named_args: Mapping[str, Any] | None = None,
+    filters: Sequence[str] | None = None,
+    stemmer: str | None = None,
+) -> Tokenizer:
+    positional_args: list[Any] = list(args or ())
+    use_positional_bounds = min_gram is not None and max_gram is not None and not positional_args
+    if use_positional_bounds:
+        positional_args.extend([min_gram, max_gram])
+
+    all_named_args: dict[str, Any] = {}
+    if named_args is not None:
+        all_named_args.update({str(key): value for key, value in named_args.items()})
+    if min_gram is not None and not use_positional_bounds:
+        all_named_args["min_gram"] = min_gram
+    if max_gram is not None and not use_positional_bounds:
+        all_named_args["max_gram"] = max_gram
+    return _build_spec(
+        "edge_ngram",
+        alias=alias,
+        args=positional_args,
+        named_args=all_named_args,
+        filters=filters,
+        stemmer=stemmer,
+    )
+
+
 def lindera(
     dictionary: str | None = None,
     *,
diff --git a/tests/integration/test_query_interface_integration.py b/tests/integration/test_query_interface_integration.py
@@ -152,7 +152,7 @@ def test_agg_function_projection(session):
         ("pdb.literal_normalized", tokenizer.literal_normalized()),
         ("pdb.ngram(3,3)", tokenizer.ngram(args=(3, 3))),
         ("pdb.ngram(3,3,'positions=true')", tokenizer.ngram(args=(3, 3), named_args={"positions": "true"})),
-        # ("pdb.edge_ngram(3, 3)", tokenizer.edge), TODO add support
+        ("pdb.edge_ngram(2,5)", tokenizer.edge_ngram(args=(2, 5))),
         ("pdb.simple", tokenizer.simple()),
         ("pdb.regex_pattern('.*')", tokenizer.regex_pattern(".*")),
         ("pdb.chinese_compatible", tokenizer.chinese_compatible()),