revert: adjust model default configuration (#11)

BSXXSB · yyk · web-flow · commit ee2a1b6b62dd · 2025-11-14T11:57:08.000+08:00
Co-authored-by: yyk &lt;yanyukun@xiaomi.com&gt;
diff --git a/config/ai_engine_config.yaml b/config/ai_engine_config.yaml
@@ -50,8 +50,8 @@ models:
     model_path: "/models/Qwen3-8B/Qwen3-8B-Q4_K_M.gguf"
 
     parallel_seq_num: 2
-    total_context_num: 16384
-    context_per_seq: 8192
+    total_context_num: 12288
+    context_per_seq: 6144
     chunk_size: 1024
 
     device: "cuda"
diff --git a/miloco_ai_engine/config/config_info.py b/miloco_ai_engine/config/config_info.py
@@ -25,6 +25,7 @@ class ModelConfigUpdate(BaseModel):
     cache_seq_num: int = Field(description="Cache sequence count")
     parallel_seq_num: int = Field(description="Parallel sequence count")
     total_context_num: int = Field(description="Context window size")
+    context_per_seq: int = Field(default=-1, description="Maximum available context")
     chunk_size: int = Field(description="Batch size")
 
 class ModelConfig(BaseModel):
@@ -78,13 +79,14 @@ def update(self, config_update: ModelConfigUpdate) -> None:
         self.n_seq_max = self.cache_seq_num + config_update.parallel_seq_num
 
         self.total_context_num = config_update.total_context_num
+        self.context_per_seq = config_update.context_per_seq \
+            if config_update.context_per_seq > 0 else self.context_per_seq
         self.chunk_size = config_update.chunk_size
 
     def to_dict(self) -> dict:
         """
         Convert to dictionary for C++ library initialization input
         """
-        
         r = self.model_dump()
         r.pop("task_classification")
         # Remove keys with None values from config dictionary
diff --git a/miloco_ai_engine/config/config_optimizer.py b/miloco_ai_engine/config/config_optimizer.py
@@ -52,14 +52,14 @@
     device=ModelDevice.CPU,
     cache_seq_num=0,
     parallel_seq_num=2,
-    total_context_num=16384,
+    total_context_num=12288,
     chunk_size=1024
 )
 LOW_MODE_QWEN3_CONFIG_UPDATE = ModelConfigUpdate(
     device=ModelDevice.CUDA,
     cache_seq_num=0,
     parallel_seq_num=2,
-    total_context_num=16384,
+    total_context_num=12288,
     chunk_size=1024
 )
 SMALL_MODE_QWEN3_CONFIG_UPDATE = LOW_MODE_QWEN3_CONFIG_UPDATE
@@ -69,6 +69,7 @@
     cache_seq_num=0,
     parallel_seq_num=3,
     total_context_num=24576,
+    context_per_seq=8192,
     chunk_size=1024
 )