AITOT

Calculator

Ước tính chi phí LLM API/tháng

Dự báo chi phí API 12 tháng với scenario saver. Tùy chỉnh request/tháng, tỷ lệ token và model mix.

Pricing cập nhật:

AITOT LLM API Monthly Cost Estimator dự báo chi phí 12 tháng trên OpenAI GPT-5, Claude Sonnet 4.6, Gemini 2.5 Pro, Llama 4, DeepSeek V3 và 17 model khác. Input: volume request tháng 1, growth pattern (flat / linear / exponential), và số token trung bình mỗi request.

Calculator xuất chi phí theo từng tháng, tổng năm 1, và model rẻ nhất ở scale của bạn. Toggle prompt cache để mô phỏng tiết kiệm input 60–90% trên Anthropic, 50% trên OpenAI, 25% trên Google. Lưu scenario để so model choice cho báo cáo executive.

Ở 100M token/tháng (80M input, 20M output), Claude Sonnet 4.6 tốn $540/tháng, GPT-5 $1,400/tháng, DeepSeek V3 $80/tháng. Chênh 17× — đó là lý do model choice là đòn bẩy ngân sách lớn nhất 2026, không phải caching hay batching.

Tổng năm 1

Anthropic · Claude Sonnet 4.6

$36,529

Tháng 1
100,000 req
$1,668$1,668
Tháng 2
115,000 req
$1,918$3,586
Tháng 3
130,000 req
$2,168$5,755
Tháng 4
145,000 req
$2,419$8,173
Tháng 5
160,000 req
$2,669$10,842
Tháng 6
175,000 req
$2,919$13,761
Tháng 7
190,000 req
$3,169$16,930
Tháng 8
205,000 req
$3,419$20,350
Tháng 9
220,000 req
$3,670$24,019
Tháng 10
235,000 req
$3,920$27,939
Tháng 11
250,000 req
$4,170$32,109
Tháng 12
265,000 req
$4,420$36,529
Theo thángLũy kế

Dự báo giả định 1 model chính. Với agent đa model, chạy nhiều scenario và cộng tổng.

Calculator này làm được gì

Forecast từng tháng

Xem đường cong chi phí 12 tháng, không chỉ tổng năm.

Growth pattern

Flat (B2B ổn định), linear (~10% MoM), hoặc exponential (1.3–2× tháng) — chọn của bạn.

Mô phỏng prompt cache

Toggle cache hit rate để xem giá hiệu dụng Anthropic (10% hit), OpenAI (50%), Google (25%).

So sánh 22 model

GPT-5, Claude family, Gemini, Llama 4, DeepSeek, Mistral, Amazon Nova, Cohere.

Lưu scenario

Lưu nhiều forecast vào localStorage để so model + growth combo.

Tổng năm 1

Số ngân sách trình ban quản trị. Cộng toggle inference tax buffer.

So sánh nhanh

Chi phí năm 1 ở 100M token/tháng, traffic phẳng, input:output 4:1

ModelTháng 1Tổng năm 1So Sonnet
Amazon Nova Lite$10$1200.02×
DeepSeek V3$80$9600.15×
Gemini 2.5 Flash$74$8880.14×
Claude Haiku 4.5$144$1,7280.27×
Claude Sonnet 4.6$540$6,4801.00×
OpenAI GPT-5$1,400$16,8002.59×
Claude Opus 4.7$2,700$32,4005.00×

Giả định 80M input + 20M output token/tháng, không cache.

Cách dùng calculator

Dự báo chi phí LLM API 12 tháng trên 22 model với growth modeling.

  1. 1

    Nhập volume tháng 1

    Đặt request/tháng cho tháng đầu. Thực tế — overestimate sẽ phồng to.

  2. 2

    Chọn growth pattern

    Flat (B2B ổn định), linear (10% MoM), hoặc exponential (1.3× MoM tăng trưởng viral).

  3. 3

    Đặt token/request

    Token input + output trung bình. Chat ~2k in / 400 out. RAG ~6k in / 600 out.

  4. 4

    Lưu và so sánh

    Lưu nhiều model choice để so tổng năm 1 song song.

Vì sao nên dùng calculator này

  • 22 model tracked hàng tháng
  • Mô phỏng growth pattern
  • Có prompt cache + batch discount
  • Lưu + so sánh scenario
  • Toggle inference tax buffer
  • Không cần đăng nhập

Câu hỏi thường gặp

Cách forecast chi phí LLM API 12 tháng?+
Ba input: request/tháng (tháng 1), growth pattern (flat/linear/exponential), và token input/output trung bình mỗi request. Calculator dự báo chi phí từng tháng và xuất tổng năm 1. Lưu scenario để so model choice song song.
Growth pattern nên dùng — flat, linear, hay exponential?+
Flat: tool nội bộ ổn định hoặc B2B SaaS ở scale. Linear: sản phẩm tăng trưởng điển hình +10% MoM. Exponential: startup pre-PMF hoặc app consumer viral nhân đôi 1–2 tháng. Phần lớn sản phẩm AI giữa linear và 1.3× exponential.
GPT-5 hay Claude Sonnet 4.6 rẻ hơn ở 100M token/tháng?+
Ở 100M token (80M input, 20M output): GPT-5 tốn $1,400/tháng, Claude Sonnet 4.6 tốn $540/tháng — chênh 60%. Sonnet 4.6 thắng giá ở hầu hết mọi scale. Đổi trừ khi cần feature đặc thù GPT-5.
Calculator này có tính tiết kiệm prompt cache không?+
Có — toggle "cache hit rate" để mô phỏng. Anthropic charge 10% giá input bình thường khi cache hit, OpenAI 50%, Google 25%. Ở 60% cache hit rate trên RAG workload, chi phí input Anthropic giảm 54%. Đáng kể cho app system-prompt dài.
Forecast LLM 12 tháng chính xác đến đâu?+
Cho 3 tháng đầu: trong 10% nếu ước tính traffic thực tế. Cho tháng 6–12: ±30% là bình thường vì pricing thay đổi và có thể đổi model. Re-run forecast hàng tháng và pin saved scenario cho báo cáo executive.
Cách rẻ nhất để serve 1 tỷ token LLM/tháng?+
Ba đường: (1) DeepSeek V3 ở $1.10/M output = ~$220/tháng cho 200M token output, (2) Together Llama 4 70B ở $0.88/M = $176/tháng, (3) self-host vLLM trên 4× H100 ở $2.50/giờ = $7,200/tháng phẳng (đáng trên ~3B token/tháng). Calculator so cả ba.