Question 1

Comment comparer les tarifs de tokens LLM entre fournisseurs en 2026 ?

Accepted Answer

Saisis ton volume moyen de tokens input + output par requête et le volume mensuel. Le comparateur calcule le coût par requête et mensuel sur 22 modèles — OpenAI GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Llama 4, Mistral, DeepSeek, Amazon Nova et plus. Trie par output rate car l'output domine la facture en production.

Question 2

Quel LLM a les tokens de sortie les moins chers en 2026 ?

Accepted Answer

Amazon Nova Lite à $0.24 par million de tokens output est le moins cher en production-grade. DeepSeek V3 à $1.10 et Gemini 2.5 Flash à $2.50 suivent. Évite Claude Opus 4.7 ($75/M output) sauf besoin spécifique de qualité de raisonnement.

Question 3

Combien le prompt cache réduit ma facture LLM ?

Accepted Answer

Pour des workloads RAG avec system prompt stable, le prompt caching réduit le coût input 60–90% sur Anthropic, 50% sur OpenAI, 75% sur Google. Le cache hit rate steady-state réel est 50–70%. Ajuste le slider "% input cached" pour voir ton prix effectif.

Question 4

Pourquoi l'output coûte plus que l'input sur tous les modèles ?

Accepted Answer

La génération output est séquentielle — chaque token requiert un forward pass complet. Les tokens input sont traités en parallèle. L'output est aussi memory-bandwidth-bound sur les grands modèles. La plupart des fournisseurs facturent 3–5× plus l'output pour refléter le GPU time réel.

Question 5

Ce calculateur inclut-il le rabais Batch API ?

Accepted Answer

Non — il affiche les prix API real-time. Pour des workloads non-temps-réel (résumé nocturne, content moderation backfill), OpenAI et Anthropic offrent 50% off via Batch API. Soustrais 50% du coût affiché si ton trafic peut attendre 24h.

Question 6

Quel modèle offre la meilleure qualité par dollar en 2026 ?

Accepted Answer

Claude Sonnet 4.6 ($3 input, $15 output) et GPT-5 mini ($0.40 input, $1.60 output) dominent les benchmarks price-performance. Pour le coding, Claude Sonnet 4.6 gagne sur SWE-bench. Pour le chat général, Gemini 2.5 Flash est le défaut pas-cher-mais-capable à $0.30/$2.50.

Fournisseur	Modèle	Entrée / 1M	Sortie / 1M	Par requête	Par mois
Amazon	Nova Lite	$0.06	$0.24	$0.0001	$14.40
OpenAI	GPT-5 nano	$0.05	$0.40	$0.0002	$20.00
Google	Gemini 2.5 Flash-Lite	$0.10	$0.40	$0.0002	$24.00
Cohere	Command R	$0.15	$0.60	$0.0004	$36.00
Mistral	Mistral Small 3	$0.20	$0.60	$0.0004	$40.00
DeepSeek	DeepSeek V3	$0.27	$1.10	$0.0007	$65.60
OpenAI	GPT-5.4 nano	$0.20	$1.25	$0.0007	$66.00
Google	Gemini 3.1 Flash-Lite	$0.25	$1.50	$0.0008	$80.00
OpenAI	GPT-5 mini	$0.25	$2.00	$0.001	$100.00
Meta (Together)	Llama 4 70B	$0.88	$0.88	$0.0011	$105.60
Google	Gemini 2.5 Flash	$0.30	$2.50	$0.0012	$124.00
DeepSeek	DeepSeek R1	$0.55	$2.19	$0.0013	$131.60
xAI	Grok 4 mini	$0.60	$2.40	$0.0014	$144.00
Amazon	Nova Pro	$0.80	$3.20	$0.0019	$192.00
OpenAI	GPT-5.4 mini	$0.75	$4.50	$0.0024	$240.00
Anthropic	Claude Haiku 4.5	$1.00	$5.00	$0.0028	$280.00
Mistral	Mistral Large 2	$2.00	$6.00	$0.004	$400.00
Meta (Together)	Llama 4 405B	$3.50	$3.50	$0.0042	$420.00
OpenAI	o3	$2.00	$8.00	$0.0048	$480.00
Google	Gemini 3.5 Flash	$1.50	$9.00	$0.0048	$480.00
OpenAI	GPT-5	$1.25	$10.00	$0.005	$500.00
Google	Gemini 2.5 Pro	$1.25	$10.00	$0.005	$500.00
Cohere	Command R+	$2.50	$10.00	$0.006	$600.00
Google	Gemini 3.1 Pro	$2.00	$12.00	$0.0064	$640.00
OpenAI	GPT-5.4	$2.50	$15.00	$0.008	$800.00
Google	Gemini 2.5 Pro (long ctx >200K)	$2.50	$15.00	$0.008	$800.00
Anthropic	Claude Sonnet 4.6	$3.00	$15.00	$0.0084	$840.00
Anthropic	Claude Opus 4.8	$5.00	$25.00	$0.014	$1,400.00
xAI	Grok 4	$5.00	$25.00	$0.014	$1,400.00
OpenAI	GPT-5.5	$5.00	$30.00	$0.016	$1,600.00
OpenAI	GPT-5.5 Pro	$30.00	$180.00	$0.096	$9,600.00

Modèle	Input	Output	Blended 50:50
Amazon Nova Lite	$0.06	$0.24	$0.15
DeepSeek V3	$0.27	$1.10	$0.69
Gemini 2.5 Flash	$0.30	$2.50	$1.40
GPT-5 mini	$0.40	$1.60	$1.00
Claude Haiku 4.5	$0.80	$4.00	$2.40
Claude Sonnet 4.6	$3.00	$15.00	$9.00
OpenAI GPT-5	$10.00	$30.00	$20.00
Claude Opus 4.7	$15.00	$75.00	$45.00

Comparateur de prix de tokens

Ce que fait ce calculateur

22 LLMs dans un tableau

Modélisation prompt cache

Per-request + per-month

Workload presets

Ratio output:input

Export + partage

Comparaison rapide

Comment utiliser ce calculateur

Pourquoi utiliser ce calculateur

Questions fréquentes