Calculator

So sánh giá token AI

Ước tính chi phí token input/output của OpenAI, Anthropic, Google, xAI, Mistral… kèm tiết kiệm prompt cache.

Pricing cập nhật: 2026-06-06

AITOT Token & Pricing Comparator giúp so sánh chi phí mỗi token trên 22 LLM hàng đầu năm 2026 — gồm OpenAI GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Llama 4 70B, DeepSeek V3, Mistral Large 2, Amazon Nova. Nhập số token input/output trung bình, bấm tính, và xem chi phí mỗi request + theo tháng song song.

Output token chiếm phần lớn hóa đơn — cao hơn input 3–5× trên mọi provider chính. Comparator sort theo tổng chi phí, không theo giá niêm yết, để bạn thấy ảnh hưởng thực tế. Toggle prompt cache giảm chi phí input 60–90% trên Anthropic và 50% trên OpenAI khi system prompt ổn định.

Toàn bộ pricing lấy từ documentation chính thức của provider và refresh vào ngày 1 hàng tháng. Hóa đơn thực thường lệch 5–15% so với ước tính — chênh do caching, batching, region surcharge và rate-limit headroom. Không cần đăng nhập; kết quả tính trên trình duyệt.

Rẻ nhất

Amazon · Nova Lite

$14.40

Mỗi tháng

31 models

Provider	Model	Input / 1M	Output / 1M	Mỗi request	Mỗi tháng
Amazon	Nova Lite	$0.06	$0.24	$0.0001	$14.40
OpenAI	GPT-5 nano	$0.05	$0.40	$0.0002	$20.00
Google	Gemini 2.5 Flash-Lite	$0.10	$0.40	$0.0002	$24.00
Cohere	Command R	$0.15	$0.60	$0.0004	$36.00
Mistral	Mistral Small 3	$0.20	$0.60	$0.0004	$40.00
DeepSeek	DeepSeek V3	$0.27	$1.10	$0.0007	$65.60
OpenAI	GPT-5.4 nano	$0.20	$1.25	$0.0007	$66.00
Google	Gemini 3.1 Flash-Lite	$0.25	$1.50	$0.0008	$80.00
OpenAI	GPT-5 mini	$0.25	$2.00	$0.001	$100.00
Meta (Together)	Llama 4 70B	$0.88	$0.88	$0.0011	$105.60
Google	Gemini 2.5 Flash	$0.30	$2.50	$0.0012	$124.00
DeepSeek	DeepSeek R1	$0.55	$2.19	$0.0013	$131.60
xAI	Grok 4 mini	$0.60	$2.40	$0.0014	$144.00
Amazon	Nova Pro	$0.80	$3.20	$0.0019	$192.00
OpenAI	GPT-5.4 mini	$0.75	$4.50	$0.0024	$240.00
Anthropic	Claude Haiku 4.5	$1.00	$5.00	$0.0028	$280.00
Mistral	Mistral Large 2	$2.00	$6.00	$0.004	$400.00
Meta (Together)	Llama 4 405B	$3.50	$3.50	$0.0042	$420.00
OpenAI	o3	$2.00	$8.00	$0.0048	$480.00
Google	Gemini 3.5 Flash	$1.50	$9.00	$0.0048	$480.00
OpenAI	GPT-5	$1.25	$10.00	$0.005	$500.00
Google	Gemini 2.5 Pro	$1.25	$10.00	$0.005	$500.00
Cohere	Command R+	$2.50	$10.00	$0.006	$600.00
Google	Gemini 3.1 Pro	$2.00	$12.00	$0.0064	$640.00
OpenAI	GPT-5.4	$2.50	$15.00	$0.008	$800.00
Google	Gemini 2.5 Pro (long ctx >200K)	$2.50	$15.00	$0.008	$800.00
Anthropic	Claude Sonnet 4.6	$3.00	$15.00	$0.0084	$840.00
Anthropic	Claude Opus 4.8	$5.00	$25.00	$0.014	$1,400.00
xAI	Grok 4	$5.00	$25.00	$0.014	$1,400.00
OpenAI	GPT-5.5	$5.00	$30.00	$0.016	$1,600.00
OpenAI	GPT-5.5 Pro	$30.00	$180.00	$0.096	$9,600.00

Chỉ là ước tính. Hóa đơn thật có thể chênh 5–15% tùy caching, batching và region.

Calculator này làm được gì

22 LLM trong một bảng

GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Llama 4, DeepSeek V3, Mistral, Amazon Nova, Cohere Command — so sánh song song.

Mô phỏng prompt cache

Toggle cache hit rate từ 0–100% để xem giá hiệu dụng của Anthropic (10% khi hit), OpenAI (50%), Google (25%).

Theo request + theo tháng

Calculator hiển thị cả chi phí mỗi request (mức UX) lẫn tổng tháng (mức billing) cho mọi model.

Preset workload

Chat, RAG, agent, summarization, code-gen có preset đầy đủ — không phải đoán.

Tỷ lệ output:input

Chat thường 4:1 input:output; code-gen 3:1; summarization 10:1. Slider để bạn chỉnh đúng workload.

Export + chia sẻ

Lưu scenario vào localStorage, export CSV, chia sẻ permalink cho team.

So sánh nhanh

Giá token của các LLM top (mỗi 1M token)

Model	Input	Output	Trộn 50:50
Amazon Nova Lite	$0.06	$0.24	$0.15
DeepSeek V3	$0.27	$1.10	$0.69
Gemini 2.5 Flash	$0.30	$2.50	$1.40
GPT-5 mini	$0.40	$1.60	$1.00
Claude Haiku 4.5	$0.80	$4.00	$2.40
Claude Sonnet 4.6	$3.00	$15.00	$9.00
OpenAI GPT-5	$10.00	$30.00	$20.00
Claude Opus 4.7	$15.00	$75.00	$45.00

Output chi phối phần lớn workload. Dùng calculator với tỷ lệ input:output thực tế của bạn.

Cách dùng calculator

Ước tính chi phí token input + output cho workload của bạn trên 22 LLM trong dưới 60 giây.

1
Chọn preset workload
Chọn chat, RAG, agent, summarization, hoặc code-gen. Preset điền sẵn tỷ lệ input/output thực tế.
2
Đặt số request/tháng
Nhập số request/tháng dự kiến. Calculator scale chi phí từ mỗi request lên tổng tháng.
3
Toggle prompt cache
Nếu system prompt ổn định, set cache hit rate 50–80% để xem giá input hiệu dụng.
4
So sánh và chọn
Sort kết quả theo chi phí tháng. Chọn model rẻ nhất đạt chất lượng cần thiết.

Vì sao nên dùng calculator này

✓Miễn phí mãi mãi — không cần đăng nhập, không cần thẻ
✓22 LLM, refresh hàng tháng từ docs chính thức
✓Chạy client-side — input của bạn ở lại private
✓Có preset workload, không phải trung bình chung
✓Tính prompt cache + batch discount
✓Permalink để chia sẻ team

Câu hỏi thường gặp

Làm sao so sánh giá token LLM giữa các provider 2026?+

Nhập số token input + output trung bình mỗi request và số request/tháng vào comparator. Tool tính chi phí mỗi request và mỗi tháng trên 22 model — OpenAI GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Llama 4, Mistral, DeepSeek, Amazon Nova và nhiều hơn. Sort theo output rate vì output chi phối phần lớn hóa đơn production.

LLM nào có output token rẻ nhất 2026?+

Amazon Nova Lite ở $0.24 mỗi triệu token output là option production-grade rẻ nhất. DeepSeek V3 ở $1.10 và Gemini 2.5 Flash ở $2.50 theo sau. Tránh Claude Opus 4.7 ($75/M output) trừ khi cụ thể cần chất lượng reasoning.

Prompt cache giảm hóa đơn LLM bao nhiêu?+

Cho workload RAG với system prompt ổn định, prompt caching cắt chi phí input 60–90% trên Anthropic, 50% trên OpenAI, 75% trên Google. Cache hit rate steady-state thực tế 50–70%. Toggle slider "% input cached" để xem giá hiệu dụng.

Vì sao output đắt hơn input trên mọi model?+

Output tạo tuần tự — mỗi token cần một forward pass đầy đủ qua model. Input xử lý song song. Output cũng bị bottleneck bandwidth bộ nhớ trên model lớn. Phần lớn provider price output cao hơn 3–5× để phản ánh GPU time thực.

Calculator này có tính giảm giá Batch API không?+

Không — calculator hiển thị giá API real-time. Cho workload non-realtime (summarization qua đêm, content moderation backfill), OpenAI và Anthropic đều giảm 50% qua Batch API. Trừ 50% từ chi phí hiển thị nếu traffic của bạn chờ được 24 giờ.

Model nào cho chất lượng/đô la tốt nhất 2026?+

Claude Sonnet 4.6 ($3 input, $15 output) và GPT-5 mini ($0.40 input, $1.60 output) dẫn đầu benchmark price-performance. Cho coding, Claude Sonnet 4.6 thắng trên SWE-bench. Cho chat chung, Gemini 2.5 Flash là default rẻ-mà-tốt ở $0.30/$2.50.