Pronóstico Costo LLM Mensual 2026: Guía Proyección 12 Meses
Pronostica gasto LLM API a 12 meses en 2026 — modelos crecimiento flat/lineal/exponencial. Escenarios reales para chatbot, RAG, agent, summarization.
Un pronóstico de costo LLM a 12 meses en 2026 necesita tres cosas: volumen tokens, modelo crecimiento, elección modelo. Acierta los tres y estarás dentro ±25% del gasto real. Falla uno y estás fuera 2–10×. Esta guía recorre la fórmula. Para proyección tiempo real entre 20 modelos, usa nuestro Estimador LLM Mensual.
Los bills LLM sorprenden teams cada mes porque el gasto se ve lineal día-a-día pero compound mes-a-mes. Un workload creciendo 15% mensual duplica en 5 meses, triplica en 8, pega 5× en mes 11.
¿Cuál es la fórmula?
Per-mes:
cost_per_request = (input_tokens × input_rate / 1M) + (output_tokens × output_rate / 1M) - cache_discount
requests[mes] = requests_mes_1 × growth_factor[mes]
monthly_cost[mes] = cost_per_request × requests[mes]
cumulative[12] = sum(monthly_cost for mes in 1..12)
Growth factors:
- Flat: factor 1,0 cada mes
- Lineal r: factor = 1 + r × (mes - 1)
- Exponencial r: factor = (1 + r) ^ (mes - 1)
¿Cómo se ve un forecast realista 12 meses?
Tres escenarios en Claude Sonnet 4.6 ($3 input, $15 output, 30% cache hit):
Escenario A: B2B SaaS chatbot, lineal
- 100k requests/mes mes 1, creciendo 15% lineal
- 2000 input tokens, 400 output tokens
- $0,005 por request
| Mes | Requests | Costo mes | Cumulative |
|---|---|---|---|
| 1 | 100.000 | $529 | $529 |
| 3 | 130.000 | $688 | $1.746 |
| 6 | 175.000 | $926 | $4.055 |
| 9 | 220.000 | $1.165 | $7.221 |
| 12 | 265.000 | $1.403 | $10.981 |
Total año 1: $10.981. Predictable.
Escenario B: Consumer AI app, exponencial
- 50k requests/mes mes 1, creciendo 20% exponencial
- $0,005 por request
| Mes | Requests | Costo mes | Cumulative |
|---|---|---|---|
| 1 | 50.000 | $265 | $265 |
| 6 | 124.400 | $658 | $2.591 |
| 12 | 371.000 | $1.963 | $10.720 |
Total año 1: $10.720 — similar al A pero con volatilidad mes-a-mes muy diferente.
Escenario C: Tool interno, flat
- 30k requests/mes, flat. Total año 1: $1.905. Trivial.
¿Qué modelo crecimiento elegir?
- Flat 0% — tools admin internos, batch reports.
- Lineal 5–15% — B2B SaaS, profesional.
- Lineal 15–30% — SaaS growth-stage, paid acquisition.
- Exponencial 10–20% — Consumer apps en fase product-market-fit.
- Exponencial 25–50% — TikTok-grade viral. Raro.
Error a evitar: asumir crecimiento exponencial que no se materializa. La mayoría de apps que empiezan exponencial decaen a lineal en mes 4–6.
¿Cómo elegir el modelo generación correcto?
Two-step:
- Testea 3 candidatos en eval set 100 ejemplos.
- Elige el más barato que pase tu quality bar.
Diferencias de costo grandes:
| Modelo | $/M input | $/M output | Costo año 1 (Escenario A) |
|---|---|---|---|
| Amazon Nova Lite | $0,06 | $0,24 | $570 |
| Gemini 2.5 Flash | $0,30 | $2,50 | $1.650 |
| Claude Haiku 4.5 | $0,80 | $4,00 | $4.150 |
| GPT-5 mini | $0,40 | $1,60 | $1.820 |
| Claude Sonnet 4.6 | $3,00 | $15,00 | $10.981 |
| GPT-5 | $10,00 | $30,00 | $24.650 |
| Claude Opus 4.7 | $15,00 | $75,00 | $52.300 |
Mismo workload, 90× spread. Elegir el modelo correcto es la decisión de mayor leverage de costo.
¿Cómo cambia prompt caching el forecast?
Anthropic cache 10% input price. Para workloads RAG típicos, cache hit rates 50–70% steady-state.
Reworking Escenario A con 60% Anthropic cache:
sin cache: $0,005/request
con 60% cache:
input_with_cache = 2000 × (0,4 × $3 + 0,6 × $0,30) / 1M = $0,00276
output unchanged = 400 × $15 / 1M = $0,006
per_request = $0,00876
~12% más barato que baseline.
Para apps nuevas, asumir 30% cache hit mes 1, ramp lineal a 60% mes 6. La tool forecast modela esto automáticamente.
¿Qué costos ocultos y savings incluir?
Cinco items often-overlooked:
- Batch API discounts (savings). OpenAI batch 50% off.
- Volume tier discounts (savings). Sobre $50M tokens/mes, negociable 10–30% off list.
- Surcharges región (costo). EU/APAC 5–15% más en Bedrock y Vertex.
- Rate limit upgrade fees (costo). Apps producción necesitan paid tier capacity.
- Speculative decoding overhead (costo). Algunos providers cobran tokens speculativos. 5–15%.
Para forecasting completo capturando todas capas, usa Calculador Costo Agente. Para tokens-only, usa nuestro Estimador LLM Mensual.
¿Con qué frecuencia re-forecast?
Trimestralmente. Dos razones:
- Price cuts providers. Major providers cortan precios 2–4 veces/año.
- Growth reality check. Tu growth rate real después 3 meses es mejor predictor para meses 4–12.
¿Cuál es el bill típico año-1 LLM por categoría?
Industry benchmarks (sample bills startup AI 2025–2026):
| Categoría | Bill año 1 típico |
|---|---|
| Tools AI internos | $500–$3.000 |
| B2B SaaS con features LLM | $5.000–$30.000 |
| Automatización customer support | $10.000–$60.000 |
| App chat consumer | $30.000–$300.000+ |
| Producto AI-first (agent platform) | $50.000–$500.000+ |
| Enterprise AI integration | $100.000–$5M+ |
Para cost modeling amplio incluyendo inference + infraestructura + dev time, usa Calculador Costo Agente. Para cálculo ROI comparando saving AI vs spend, usa Calculador AI ROI.
Refrescamos data pricing primero de cada mes — re-corre forecast con precios nuevos cuando major providers cortan.