OpenHands · juanmichelini · Jun 9, 2026
diff --git a/benchmarks/commit0/run_infer.py b/benchmarks/commit0/run_infer.py
@@ -35,8 +35,9 @@
     get_default_on_result_writer,
 )
 from benchmarks.utils.image_utils import create_docker_workspace, remote_image_exists
+from benchmarks.utils.intelligent_routing import classify_and_route
 from benchmarks.utils.litellm_proxy import build_eval_llm
-from benchmarks.utils.llm_config import load_llm_config
+from benchmarks.utils.llm_config import load_llm_config, maybe_load_router_spec
 from benchmarks.utils.models import (
     EvalInstance,
     EvalMetadata,
@@ -385,7 +386,24 @@ def evaluate_instance(
         if is_acp_agent(self.metadata.agent_type):
             agent = build_acp_agent(self.metadata.agent_type, self.metadata.llm.model)
         else:
-            agent_llm = build_eval_llm(self.metadata.llm)
+            primary_llm = self.metadata.llm
+            if self.metadata.routing is not None:
+                decision = classify_and_route(
+                    benchmark="commit0",
+                    instance_data=instance.data,
+                    router=self.metadata.routing,
+                )
+                logger.info(
+                    "intelligent-routing instance=%s category=%s model=%s "
+                    "vision_fallback=%s raw=%r",
+                    instance.id,
+                    decision.category,
+                    decision.chosen_model_id,
+                    decision.forced_vision_fallback,
+                    decision.raw_classifier_output[:120],
+                )
+                primary_llm = decision.chosen_llm
+            agent_llm = build_eval_llm(primary_llm)
             tools = get_tools_for_preset(
                 self.metadata.tool_preset, enable_browser=False
             )
@@ -394,7 +412,7 @@ def evaluate_instance(
             condenser = None
             if self.metadata.enable_condenser:
                 condenser = LLMSummarizingCondenser(
-                    llm=build_eval_llm(self.metadata.llm, usage_id="condenser"),
+                    llm=build_eval_llm(primary_llm, usage_id="condenser"),
                     max_size=self.metadata.condenser_max_size,
                     keep_first=self.metadata.condenser_keep_first,
                 )
@@ -638,6 +656,14 @@ def main() -> None:
         raise ValueError(f"n_critic_runs must be >= 1, got {args.n_critic_runs}")
 
     llm = load_llm_config(args.llm_config_path)
+    routing_spec = maybe_load_router_spec(args.llm_config_path)
+    if routing_spec is not None:
+        logger.info(
+            "Using intelligent routing: classifier=%s tiers=%s fallback=%s",
+            routing_spec.classifier_llm.model,
+            sorted(routing_spec.tiers.keys()),
+            routing_spec.fallback_model_id,
+        )
     logger.info("Using LLM config: %s", llm.model_dump_json(indent=2))
 
     dataset_description = (
@@ -658,6 +684,7 @@ def main() -> None:
 
     metadata = EvalMetadata(
         llm=llm,
+        routing=routing_spec,
         dataset=args.dataset,
         dataset_split=args.split,
         max_iterations=args.max_iterations,

diff --git a/benchmarks/gaia/run_infer.py b/benchmarks/gaia/run_infer.py
@@ -37,8 +37,9 @@
 )
 from benchmarks.utils.fake_user_response import run_conversation_with_fake_user_response
 from benchmarks.utils.image_utils import create_docker_workspace, remote_image_exists
+from benchmarks.utils.intelligent_routing import classify_and_route
 from benchmarks.utils.litellm_proxy import build_eval_llm
-from benchmarks.utils.llm_config import load_llm_config
+from benchmarks.utils.llm_config import load_llm_config, maybe_load_router_spec
 from benchmarks.utils.models import EvalInstance, EvalMetadata, EvalOutput
 from benchmarks.utils.tool_presets import get_tools_for_preset
 from benchmarks.utils.version import IMAGE_TAG_PREFIX
@@ -325,7 +326,24 @@ def evaluate_instance(
         if is_acp_agent(self.metadata.agent_type):
             agent = build_acp_agent(self.metadata.agent_type, self.metadata.llm.model)
         else:
-            agent_llm = build_eval_llm(self.metadata.llm)
+            primary_llm = self.metadata.llm
+            if self.metadata.routing is not None:
+                decision = classify_and_route(
+                    benchmark="gaia",
+                    instance_data=instance.data,
+                    router=self.metadata.routing,
+                )
+                logger.info(
+                    "intelligent-routing instance=%s category=%s model=%s "
+                    "vision_fallback=%s raw=%r",
+                    instance.id,
+                    decision.category,
+                    decision.chosen_model_id,
+                    decision.forced_vision_fallback,
+                    decision.raw_classifier_output[:120],
+                )
+                primary_llm = decision.chosen_llm
+            agent_llm = build_eval_llm(primary_llm)
             tools = get_tools_for_preset(self.metadata.tool_preset, enable_browser=True)
             if self.metadata.enable_delegation:
                 tools.append(Tool(name=TaskToolSet.name))
@@ -334,7 +352,7 @@ def evaluate_instance(
             condenser = None
             if self.metadata.enable_condenser:
                 condenser = LLMSummarizingCondenser(
-                    llm=build_eval_llm(self.metadata.llm, usage_id="condenser"),
+                    llm=build_eval_llm(primary_llm, usage_id="condenser"),
                     max_size=self.metadata.condenser_max_size,
                     keep_first=self.metadata.condenser_keep_first,
                 )
@@ -618,6 +636,14 @@ def main() -> None:
         raise ValueError(f"n_critic_runs must be >= 1, got {args.n_critic_runs}")
 
     llm = load_llm_config(args.llm_config_path)
+    routing_spec = maybe_load_router_spec(args.llm_config_path)
+    if routing_spec is not None:
+        logger.info(
+            "Using intelligent routing: classifier=%s tiers=%s fallback=%s",
+            routing_spec.classifier_llm.model,
+            sorted(routing_spec.tiers.keys()),
+            routing_spec.fallback_model_id,
+        )
     logger.info("Using LLM config: %s", llm.model_dump_json(indent=2))
 
     # Construct dataset description
@@ -635,6 +661,7 @@ def main() -> None:
     # Create metadata
     metadata = EvalMetadata(
         llm=llm,
+        routing=routing_spec,
         dataset=args.dataset,
         dataset_split=args.split,
         max_iterations=args.max_iterations,

diff --git a/benchmarks/swebench/run_infer.py b/benchmarks/swebench/run_infer.py
@@ -35,8 +35,9 @@
 )
 from benchmarks.utils.fake_user_response import run_conversation_with_fake_user_response
 from benchmarks.utils.image_utils import remote_image_exists
+from benchmarks.utils.intelligent_routing import classify_and_route
 from benchmarks.utils.litellm_proxy import build_eval_llm
-from benchmarks.utils.llm_config import load_llm_config
+from benchmarks.utils.llm_config import load_llm_config, maybe_load_router_spec
 from benchmarks.utils.models import (
     EvalInstance,
     EvalMetadata,
@@ -262,7 +263,24 @@ def evaluate_instance(
         if is_acp_agent(self.metadata.agent_type):
             agent = build_acp_agent(self.metadata.agent_type, self.metadata.llm.model)
         else:
-            agent_llm = build_eval_llm(self.metadata.llm)
+            primary_llm = self.metadata.llm
+            if self.metadata.routing is not None:
+                decision = classify_and_route(
+                    benchmark="swebench",
+                    instance_data=instance.data,
+                    router=self.metadata.routing,
+                )
+                logger.info(
+                    "intelligent-routing instance=%s category=%s model=%s "
+                    "vision_fallback=%s raw=%r",
+                    instance.id,
+                    decision.category,
+                    decision.chosen_model_id,
+                    decision.forced_vision_fallback,
+                    decision.raw_classifier_output[:120],
+                )
+                primary_llm = decision.chosen_llm
+            agent_llm = build_eval_llm(primary_llm)
             tools = get_tools_for_preset(
                 preset=self.metadata.tool_preset,
                 # Disable browser tools in CLI mode
@@ -273,7 +291,7 @@ def evaluate_instance(
             condenser = None
             if self.metadata.enable_condenser:
                 condenser = LLMSummarizingCondenser(
-                    llm=build_eval_llm(self.metadata.llm, usage_id="condenser"),
+                    llm=build_eval_llm(primary_llm, usage_id="condenser"),
                     max_size=self.metadata.condenser_max_size,
                     keep_first=self.metadata.condenser_keep_first,
                 )
@@ -395,7 +413,16 @@ def main() -> None:
         raise ValueError(f"n_critic_runs must be >= 1, got {args.n_critic_runs}")
 
     llm = load_llm_config(args.llm_config_path)
-    logger.info("Using LLM config: %s", llm.model_dump_json(indent=2))
+    routing_spec = maybe_load_router_spec(args.llm_config_path)
+    if routing_spec is not None:
+        logger.info(
+            "Using intelligent routing: classifier=%s tiers=%s fallback=%s",
+            routing_spec.classifier_llm.model,
+            sorted(routing_spec.tiers.keys()),
+            routing_spec.fallback_model_id,
+        )
+    else:
+        logger.info("Using LLM config: %s", llm.model_dump_json(indent=2))
 
     dataset_description = (
         args.dataset.replace("/", "__") + "-" + args.split.replace("/", "__")
@@ -422,6 +449,7 @@ def main() -> None:
 
     metadata = EvalMetadata(
         llm=llm,
+        routing=routing_spec,
         dataset=args.dataset,
         dataset_split=args.split,
         max_iterations=args.max_iterations,

diff --git a/benchmarks/swebenchmultimodal/run_infer.py b/benchmarks/swebenchmultimodal/run_infer.py
@@ -33,8 +33,9 @@
 )
 from benchmarks.utils.fake_user_response import run_conversation_with_fake_user_response
 from benchmarks.utils.image_utils import remote_image_exists
+from benchmarks.utils.intelligent_routing import classify_and_route
 from benchmarks.utils.litellm_proxy import build_eval_llm
-from benchmarks.utils.llm_config import load_llm_config
+from benchmarks.utils.llm_config import load_llm_config, maybe_load_router_spec
 from benchmarks.utils.models import (
     EvalInstance,
     EvalMetadata,
@@ -242,7 +243,24 @@ def evaluate_instance(
         if is_acp_agent(self.metadata.agent_type):
             agent = build_acp_agent(self.metadata.agent_type, self.metadata.llm.model)
         else:
-            agent_llm = build_eval_llm(self.metadata.llm)
+            primary_llm = self.metadata.llm
+            if self.metadata.routing is not None:
+                decision = classify_and_route(
+                    benchmark="swebenchmultimodal",
+                    instance_data=instance.data,
+                    router=self.metadata.routing,
+                )
+                logger.info(
+                    "intelligent-routing instance=%s category=%s model=%s "
+                    "vision_fallback=%s raw=%r",
+                    instance.id,
+                    decision.category,
+                    decision.chosen_model_id,
+                    decision.forced_vision_fallback,
+                    decision.raw_classifier_output[:120],
+                )
+                primary_llm = decision.chosen_llm
+            agent_llm = build_eval_llm(primary_llm)
             tools = get_tools_for_preset(
                 self.metadata.tool_preset,
                 # Enable browser tools for frontend development tasks
@@ -253,7 +271,7 @@ def evaluate_instance(
             condenser = None
             if self.metadata.enable_condenser:
                 condenser = LLMSummarizingCondenser(
-                    llm=build_eval_llm(self.metadata.llm, usage_id="condenser"),
+                    llm=build_eval_llm(primary_llm, usage_id="condenser"),
                     max_size=self.metadata.condenser_max_size,
                     keep_first=self.metadata.condenser_keep_first,
                 )
@@ -441,6 +459,14 @@ def main() -> None:
         raise ValueError(f"n_critic_runs must be >= 1, got {args.n_critic_runs}")
 
     llm = load_llm_config(args.llm_config_path)
+    routing_spec = maybe_load_router_spec(args.llm_config_path)
+    if routing_spec is not None:
+        logger.info(
+            "Using intelligent routing: classifier=%s tiers=%s fallback=%s",
+            routing_spec.classifier_llm.model,
+            sorted(routing_spec.tiers.keys()),
+            routing_spec.fallback_model_id,
+        )
     logger.info("Using LLM config: %s", llm.model_dump_json(indent=2))
 
     dataset_description = (
@@ -468,6 +494,7 @@ def main() -> None:
 
     metadata = EvalMetadata(
         llm=llm,
+        routing=routing_spec,
         dataset=args.dataset,
         dataset_split=args.split,
         max_iterations=args.max_iterations,

diff --git a/benchmarks/swtbench/run_infer.py b/benchmarks/swtbench/run_infer.py
@@ -30,8 +30,9 @@
     create_docker_workspace,
     remote_image_exists,
 )
+from benchmarks.utils.intelligent_routing import classify_and_route
 from benchmarks.utils.litellm_proxy import build_eval_llm
-from benchmarks.utils.llm_config import load_llm_config
+from benchmarks.utils.llm_config import load_llm_config, maybe_load_router_spec
 from benchmarks.utils.models import (
     EvalInstance,
     EvalMetadata,
@@ -251,7 +252,24 @@ def evaluate_instance(
         if is_acp_agent(self.metadata.agent_type):
             agent = build_acp_agent(self.metadata.agent_type, self.metadata.llm.model)
         else:
-            agent_llm = build_eval_llm(self.metadata.llm)
+            primary_llm = self.metadata.llm
+            if self.metadata.routing is not None:
+                decision = classify_and_route(
+                    benchmark="swtbench",
+                    instance_data=instance.data,
+                    router=self.metadata.routing,
+                )
+                logger.info(
+                    "intelligent-routing instance=%s category=%s model=%s "
+                    "vision_fallback=%s raw=%r",
+                    instance.id,
+                    decision.category,
+                    decision.chosen_model_id,
+                    decision.forced_vision_fallback,
+                    decision.raw_classifier_output[:120],
+                )
+                primary_llm = decision.chosen_llm
+            agent_llm = build_eval_llm(primary_llm)
             tools = get_tools_for_preset(
                 self.metadata.tool_preset,
                 # Disable browser tools in CLI mode
@@ -262,7 +280,7 @@ def evaluate_instance(
             condenser = None
             if self.metadata.enable_condenser:
                 condenser = LLMSummarizingCondenser(
-                    llm=build_eval_llm(self.metadata.llm, usage_id="condenser"),
+                    llm=build_eval_llm(primary_llm, usage_id="condenser"),
                     max_size=self.metadata.condenser_max_size,
                     keep_first=self.metadata.condenser_keep_first,
                 )
@@ -382,6 +400,14 @@ def main() -> None:
         raise ValueError(f"n_critic_runs must be >= 1, got {args.n_critic_runs}")
 
     llm = load_llm_config(args.llm_config_path)
+    routing_spec = maybe_load_router_spec(args.llm_config_path)
+    if routing_spec is not None:
+        logger.info(
+            "Using intelligent routing: classifier=%s tiers=%s fallback=%s",
+            routing_spec.classifier_llm.model,
+            sorted(routing_spec.tiers.keys()),
+            routing_spec.fallback_model_id,
+        )
     logger.info("Using LLM config: %s", llm.model_dump_json(indent=2))
 
     dataset_description = (
@@ -408,6 +434,7 @@ def main() -> None:
 
     metadata = EvalMetadata(
         llm=llm,
+        routing=routing_spec,
         dataset=args.dataset,
         dataset_split=args.split,
         max_iterations=args.max_iterations,