4 ajustes de OpenRouter que abaratan tu agente de IA sin cambiar de modelo

Si tienes OpenClaw conectado a OpenRouter y estás usando algún modelo de pago —aunque sea barato—, hay cuatro palancas poco conocidas que pueden bajar tu factura sin que toques el modelo. Están en la documentación oficial pero no en los tutoriales habituales, y la última en particular es enorme para un agente como OpenClaw que reenvía el mismo system prompt e historial en cada turno.

Estos trucos amplían el capítulo 17 del libro («Estrategia de modelos: cuándo usar gratis, cuándo subir y cuándo usar varios»). Si todavía no lo tienes, al final del post te dejo el enlace.

Truco 1: concentra tu tráfico para cruzar antes los tiers de precio

La mayoría de los modelos en OpenRouter funcionan con tiered pricing: cada proveedor (Together, Fireworks, DeepSeek, etc.) define escalones de precio en los que cuanto más tráfico le mandas, menos te cuesta cada token. No tienes que activarlo: el descuento se aplica automáticamente en cuanto cruzas el umbral.

El detalle práctico que la mayoría de gente no aprovecha: si dispersas tu tráfico entre cinco modelos, te cuesta más que si lo concentras en uno o dos, porque en ningún modelo individual llegas al siguiente tier. La estrategia es la misma idea que con los puntos de las tarjetas: junta tu uso donde ya estás cerca de un escalón, en lugar de repartirlo.

Para verlo en directo, abre la ficha del modelo en openrouter.ai/models (pinchando en cualquier modelo de la lista). Verás dos zonas relevantes: la sección Providers con todos los proveedores que sirven ese modelo y sus precios, y más abajo una sección titulada «Effective Pricing for [nombre del modelo]» con el precio real cobrado por proveedor durante la última hora —incluyendo una columna Cache Hit Rate que veremos en el último truco.

Un ejemplo con números reales para que veas la magnitud. A fecha de hoy, en la ficha de Llama 3.3 70B Instruct, el proveedor más barato (DeepInfra Turbo) cobra $0,10/M tokens de entrada y el más caro (Together) $0,88/M — para exactamente el mismo modelo. Casi 9x de diferencia según qué proveedor te toque por defecto. Estos números cambian de un día para otro, así que comprueba la cifra del momento en el enlace, pero la magnitud del rango se mantiene en la mayoría de modelos populares.

En OpenClaw esto encaja directamente con el consejo del capítulo 17 sobre alias y fallbacks: si tu modelo «potente» y el de tus agentes especializados son el mismo, todo ese tráfico cuenta hacia el mismo tier. Si tienes uno distinto para cada agente, no.

Truco 2: dile al router que ordene por precio

Muchos modelos populares (Llama 3.3, Qwen, DeepSeek-V3, Mistral…) los sirven varios proveedores a la vez a través de OpenRouter, y a precios distintos. El precio que ves en openrouter.ai/models suele ser el del proveedor por defecto, pero rara vez es el más barato.

OpenRouter te deja pedir explícitamente el proveedor más barato disponible. Hay dos formas:

Forma rápida: el sufijo :floor

Añadiendo :floor al final del nombre del modelo, OpenRouter elige automáticamente el proveedor más barato:

openclaw models set openrouter/meta-llama/llama-3.3-70b-instruct:floor

Es exactamente equivalente a fijar provider.sort = "price" en el body de la petición, pero con la ventaja de que se configura desde un solo comando.

Forma fina: provider.sort

Si en algún momento llamas a OpenRouter directamente (por ejemplo desde un script tuyo, o desde un skill personalizado de OpenClaw), puedes mandar el campo provider en el body con tres valores posibles:

{
  "model": "meta-llama/llama-3.3-70b-instruct",
  "messages": [...],
  "provider": {
    "sort": "price"
  }
}
  • "price": el proveedor más barato disponible (atajo: :floor)
  • "throughput": el más rápido (atajo: :nitro)
  • "latency": el de menor latencia hasta el primer token

Para un asistente personal donde no te importa esperar medio segundo más, "price" suele ser la opción correcta el 90% del tiempo.

Truco 3: ponle un techo al precio por millón de tokens

Un problema del modo openrouter/auto (el que vimos en el capítulo 17) es que, si tienes saldo cargado, OpenRouter podría elegir un modelo de pago caro cuando tu pregunta sea «complicada». Para evitarlo sin perder la flexibilidad, OpenRouter tiene el campo max_price:

{
  "model": "openrouter/auto",
  "messages": [...],
  "provider": {
    "max_price": {
      "prompt": 1,
      "completion": 2
    }
  }
}

Lo que estás diciéndole literalmente es: «úsame cualquier proveedor cuyo precio sea ≤ 1 USD por millón de tokens de entrada y ≤ 2 USD por millón de salida». Si ningún proveedor cabe en ese umbral, la petición falla con un error en lugar de mandarte una factura sorpresa.

Es la diferencia entre esperar que el límite global de tu cuenta te salve (tope mensual de la API key, que vimos en el cap 17) y cortar de raíz cualquier petición individual cara. Las dos defensas son complementarias.

Los precios concretos varían y cambian con frecuencia, así que consulta siempre openrouter.ai/models antes de fijar un techo —pero la idea es que pongas un número con el que estés cómodo aunque cierto día el modelo barato deje de estar disponible.

Truco 4: aprovecha el prompt caching (el grande)

Este es el truco que más diferencia hace en un agente como OpenClaw, y el menos conocido de los cuatro. Lo explico despacio porque vale la pena entenderlo bien.

Por qué importa especialmente para un agente

Cada vez que le hablas a OpenClaw, la petición que se manda al modelo no es solo tu mensaje. Lleva delante:

  • El system prompt con las instrucciones del agente
  • La descripción de todas las herramientas (tools) disponibles
  • Tu historial de mensajes anteriores en la sesión
  • Y por último, tu mensaje nuevo

Las tres primeras partes son idénticas en cada turno de la misma sesión, o casi. Si el modelo pudiera reconocer ese prefijo y no recalcularlo, te ahorrarías una barbaridad. Eso es exactamente el prompt caching: pagar el cálculo del prefijo solo la primera vez, y a partir de ahí pagar una fracción mucho menor por los tokens que vienen «cacheados».

Qué proveedores lo soportan a través de OpenRouter

Según la documentación oficial de OpenRouter:

  • OpenAI: caché automático a partir de 1024 tokens. Sin configuración.
  • DeepSeek: caché automático. Sin configuración. (Es el caso del descuento que mencionamos en el cap 17.)
  • Grok, Moonshot, Groq: caché automático.
  • Anthropic Claude: requiere marcar manualmente los puntos de caché con cache_control. TTL de 5 minutos por defecto, o 1 hora si lo pides explícitamente.
  • Google Gemini: las versiones 2.5 hacen caché implícito; el resto requiere cache_control.

Traducido a la práctica: si en OpenClaw estás usando un modelo de los que cachean automáticamente (OpenAI, DeepSeek, Grok…), no tienes que hacer nada: simplemente mantén las sesiones abiertas en lugar de empezar conversaciones nuevas todo el rato, y el ahorro entra solo. Esto refuerza el consejo de «mantén la sesión abierta cuando hablas del mismo tema» del capítulo 17, pero ahora sabes por qué y para qué proveedores aplica.

Cómo comprobar que el caché está funcionando

OpenRouter devuelve en la respuesta de cada llamada un objeto prompt_tokens_details con un campo cached_tokens. Si ese número es mayor que cero, has tenido cache hit y has pagado tarifa reducida por esos tokens. Para una petición típica de OpenClaw con un par de turnos previos, los cached_tokens deberían ser la inmensa mayoría del prompt.

El panel de actividad de OpenRouter (openrouter.ai/activity) también te muestra, por petición, cuántos tokens fueron cacheados. Es un buen sitio para sanity-checkar si tus sesiones están aprovechando o no el descuento.

Y en la propia ficha del modelo, dentro de la sección Effective Pricing, hay una columna Cache Hit Rate que te dice qué porcentaje de los tokens cacheados está consiguiendo cada proveedor en directo. Por dar un ejemplo concreto, en la ficha de Llama 3.3 70B Instruct a fecha de hoy, Parasail tenía un 67,6 % de cache hit rate y cobraba los tokens cacheados a $0,11/M en lugar de los $0,22/M normales —la mitad—. Estos números fluctúan, así que comprueba la cifra real del día en el enlace.

Resumen

  • Concentra tu tráfico en uno o dos modelos en lugar de repartirlo: cruzas antes los tiers de descuento del proveedor (sección Effective Pricing dentro de la pestaña Pricing de cada ficha de modelo).
  • Sufijo :floor en el nombre del modelo → OpenRouter elige el proveedor más barato disponible. Atajo equivalente: provider.sort = "price".
  • provider.max_price con valores en USD por millón de tokens → corta cualquier petición individual cara antes de que se cobre.
  • Prompt caching automático en OpenAI, DeepSeek, Grok, Moonshot y Groq; manual con cache_control en Anthropic y Gemini. Para un agente como OpenClaw, mantener la sesión abierta es lo que activa el ahorro real.

Ninguno de estos cuatro ajustes pide cambiar el modelo que estás usando. Son configuración de transporte: el mismo modelo, mejor servido.

Si todavía no tienes el libro

Estos trucos amplían lo que cuento en el capítulo 17 de OpenClaw: Tu Asistente Personal con IA, donde explico paso a paso cómo elegir modelos, configurar fallbacks, montar alias y minimizar costes en el día a día. El libro está en Amazon en tapa blanda, tapa dura y Kindle (22 capítulos, 8 capítulos exclusivos que no están en el blog).

Un saludo, y si aún no lo has hecho no olvides suscribirte a mi blog para no perderte los próximos posts  :-),

También puedes seguirme en Twitter en ‎@revi_apps y no olvides que me ayudas mucho si compartes este post en las redes sociales.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Scroll al inicio