AITOT

Calculator

So sánh giá token AI

Ước tính chi phí token input/output của OpenAI, Anthropic, Google, xAI, Mistral… kèm tiết kiệm prompt cache.

Pricing cập nhật:

AITOT Token & Pricing Comparator giúp so sánh chi phí mỗi token trên 22 LLM hàng đầu năm 2026 — gồm OpenAI GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Llama 4 70B, DeepSeek V3, Mistral Large 2, Amazon Nova. Nhập số token input/output trung bình, bấm tính, và xem chi phí mỗi request + theo tháng song song.

Output token chiếm phần lớn hóa đơn — cao hơn input 3–5× trên mọi provider chính. Comparator sort theo tổng chi phí, không theo giá niêm yết, để bạn thấy ảnh hưởng thực tế. Toggle prompt cache giảm chi phí input 60–90% trên Anthropic và 50% trên OpenAI khi system prompt ổn định.

Toàn bộ pricing lấy từ documentation chính thức của provider và refresh vào ngày 1 hàng tháng. Hóa đơn thực thường lệch 5–15% so với ước tính — chênh do caching, batching, region surcharge và rate-limit headroom. Không cần đăng nhập; kết quả tính trên trình duyệt.

Rẻ nhất

Amazon · Nova Lite

$14.40

Mỗi tháng

31 models
ProviderModelInput / 1MOutput / 1MMỗi requestMỗi tháng
AmazonNova Lite$0.06$0.24$0.0001$14.40
OpenAIGPT-5 nano$0.05$0.40$0.0002$20.00
GoogleGemini 2.5 Flash-Lite$0.10$0.40$0.0002$24.00
CohereCommand R$0.15$0.60$0.0004$36.00
MistralMistral Small 3$0.20$0.60$0.0004$40.00
DeepSeekDeepSeek V3$0.27$1.10$0.0007$65.60
OpenAIGPT-5.4 nano$0.20$1.25$0.0007$66.00
GoogleGemini 3.1 Flash-Lite$0.25$1.50$0.0008$80.00
OpenAIGPT-5 mini$0.25$2.00$0.001$100.00
Meta (Together)Llama 4 70B$0.88$0.88$0.0011$105.60
GoogleGemini 2.5 Flash$0.30$2.50$0.0012$124.00
DeepSeekDeepSeek R1$0.55$2.19$0.0013$131.60
xAIGrok 4 mini$0.60$2.40$0.0014$144.00
AmazonNova Pro$0.80$3.20$0.0019$192.00
OpenAIGPT-5.4 mini$0.75$4.50$0.0024$240.00
AnthropicClaude Haiku 4.5$1.00$5.00$0.0028$280.00
MistralMistral Large 2$2.00$6.00$0.004$400.00
Meta (Together)Llama 4 405B$3.50$3.50$0.0042$420.00
OpenAIo3$2.00$8.00$0.0048$480.00
GoogleGemini 3.5 Flash$1.50$9.00$0.0048$480.00
OpenAIGPT-5$1.25$10.00$0.005$500.00
GoogleGemini 2.5 Pro$1.25$10.00$0.005$500.00
CohereCommand R+$2.50$10.00$0.006$600.00
GoogleGemini 3.1 Pro$2.00$12.00$0.0064$640.00
OpenAIGPT-5.4$2.50$15.00$0.008$800.00
GoogleGemini 2.5 Pro (long ctx >200K)$2.50$15.00$0.008$800.00
AnthropicClaude Sonnet 4.6$3.00$15.00$0.0084$840.00
AnthropicClaude Opus 4.8$5.00$25.00$0.014$1,400.00
xAIGrok 4$5.00$25.00$0.014$1,400.00
OpenAIGPT-5.5$5.00$30.00$0.016$1,600.00
OpenAIGPT-5.5 Pro$30.00$180.00$0.096$9,600.00

Chỉ là ước tính. Hóa đơn thật có thể chênh 5–15% tùy caching, batching và region.

Calculator này làm được gì

22 LLM trong một bảng

GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Llama 4, DeepSeek V3, Mistral, Amazon Nova, Cohere Command — so sánh song song.

Mô phỏng prompt cache

Toggle cache hit rate từ 0–100% để xem giá hiệu dụng của Anthropic (10% khi hit), OpenAI (50%), Google (25%).

Theo request + theo tháng

Calculator hiển thị cả chi phí mỗi request (mức UX) lẫn tổng tháng (mức billing) cho mọi model.

Preset workload

Chat, RAG, agent, summarization, code-gen có preset đầy đủ — không phải đoán.

Tỷ lệ output:input

Chat thường 4:1 input:output; code-gen 3:1; summarization 10:1. Slider để bạn chỉnh đúng workload.

Export + chia sẻ

Lưu scenario vào localStorage, export CSV, chia sẻ permalink cho team.

So sánh nhanh

Giá token của các LLM top (mỗi 1M token)

ModelInputOutputTrộn 50:50
Amazon Nova Lite$0.06$0.24$0.15
DeepSeek V3$0.27$1.10$0.69
Gemini 2.5 Flash$0.30$2.50$1.40
GPT-5 mini$0.40$1.60$1.00
Claude Haiku 4.5$0.80$4.00$2.40
Claude Sonnet 4.6$3.00$15.00$9.00
OpenAI GPT-5$10.00$30.00$20.00
Claude Opus 4.7$15.00$75.00$45.00

Output chi phối phần lớn workload. Dùng calculator với tỷ lệ input:output thực tế của bạn.

Cách dùng calculator

Ước tính chi phí token input + output cho workload của bạn trên 22 LLM trong dưới 60 giây.

  1. 1

    Chọn preset workload

    Chọn chat, RAG, agent, summarization, hoặc code-gen. Preset điền sẵn tỷ lệ input/output thực tế.

  2. 2

    Đặt số request/tháng

    Nhập số request/tháng dự kiến. Calculator scale chi phí từ mỗi request lên tổng tháng.

  3. 3

    Toggle prompt cache

    Nếu system prompt ổn định, set cache hit rate 50–80% để xem giá input hiệu dụng.

  4. 4

    So sánh và chọn

    Sort kết quả theo chi phí tháng. Chọn model rẻ nhất đạt chất lượng cần thiết.

Vì sao nên dùng calculator này

  • Miễn phí mãi mãi — không cần đăng nhập, không cần thẻ
  • 22 LLM, refresh hàng tháng từ docs chính thức
  • Chạy client-side — input của bạn ở lại private
  • Có preset workload, không phải trung bình chung
  • Tính prompt cache + batch discount
  • Permalink để chia sẻ team

Câu hỏi thường gặp

Làm sao so sánh giá token LLM giữa các provider 2026?+
Nhập số token input + output trung bình mỗi request và số request/tháng vào comparator. Tool tính chi phí mỗi request và mỗi tháng trên 22 model — OpenAI GPT-5, Claude Opus 4.7, Gemini 2.5 Pro, Llama 4, Mistral, DeepSeek, Amazon Nova và nhiều hơn. Sort theo output rate vì output chi phối phần lớn hóa đơn production.
LLM nào có output token rẻ nhất 2026?+
Amazon Nova Lite ở $0.24 mỗi triệu token output là option production-grade rẻ nhất. DeepSeek V3 ở $1.10 và Gemini 2.5 Flash ở $2.50 theo sau. Tránh Claude Opus 4.7 ($75/M output) trừ khi cụ thể cần chất lượng reasoning.
Prompt cache giảm hóa đơn LLM bao nhiêu?+
Cho workload RAG với system prompt ổn định, prompt caching cắt chi phí input 60–90% trên Anthropic, 50% trên OpenAI, 75% trên Google. Cache hit rate steady-state thực tế 50–70%. Toggle slider "% input cached" để xem giá hiệu dụng.
Vì sao output đắt hơn input trên mọi model?+
Output tạo tuần tự — mỗi token cần một forward pass đầy đủ qua model. Input xử lý song song. Output cũng bị bottleneck bandwidth bộ nhớ trên model lớn. Phần lớn provider price output cao hơn 3–5× để phản ánh GPU time thực.
Calculator này có tính giảm giá Batch API không?+
Không — calculator hiển thị giá API real-time. Cho workload non-realtime (summarization qua đêm, content moderation backfill), OpenAI và Anthropic đều giảm 50% qua Batch API. Trừ 50% từ chi phí hiển thị nếu traffic của bạn chờ được 24 giờ.
Model nào cho chất lượng/đô la tốt nhất 2026?+
Claude Sonnet 4.6 ($3 input, $15 output) và GPT-5 mini ($0.40 input, $1.60 output) dẫn đầu benchmark price-performance. Cho coding, Claude Sonnet 4.6 thắng trên SWE-bench. Cho chat chung, Gemini 2.5 Flash là default rẻ-mà-tốt ở $0.30/$2.50.