AITOT
Blog

Cách Tính Chi Phí Token AI Năm 2026 – Hướng Dẫn Đầy Đủ

Hướng dẫn tính chi phí token AI 2026 — công thức, ví dụ thực tế, chiến lược prompt cache, và so sánh giá OpenAI, Claude, Gemini cùng 17 model khác.

8 min read· By AITOT Editorial

Chi phí token AI được tính bằng cách nhân số token input và output với giá-trên-triệu-token của provider, sau đó cộng lại. Ví dụ: xử lý 1.000 token input và 500 token output với Claude Sonnet 4.6 (giá $3 và $15 mỗi triệu token) tốn $0.003 + $0.0075 = $0.0105/request. Phần phức tạp thực sự đến từ prompt caching, discount theo batch, và việc chọn giữa hơn 20 model cạnh tranh trong 2026.

Bài hướng dẫn này đi qua công thức chính xác, đưa ra ví dụ tính toán cho các model lớn nhất, giải thích prompt caching thay đổi phép tính ra sao, và liệt kê các chi phí ẩn mà phần lớn team quên mất. Kết thúc bài bạn sẽ dự báo được workload AI sản xuất với sai số ±15% — đủ chính xác để lập budget tự tin.

Nếu muốn bỏ qua phần toán học, Bộ so sánh giá token của AITOT chạy phép tính này trên 20+ model real-time. Để dự báo 12 tháng kèm đường cong tăng trưởng, dùng Calculator chi phí LLM API hàng tháng.

Token AI là gì, chính xác?

Token là đơn vị nhỏ nhất mà language model đọc hoặc viết. Không phải từ, không phải ký tự — mà là thứ ở giữa. Hầu hết tokenizer hiện đại tách từ phổ biến thành 1 token ("cat", "running") và từ hiếm hoặc từ ghép thành nhiều token ("anthropomorphic" → 4 token).

Quy tắc thực dụng cho tiếng Anh:

  • 1 token ≈ 0.75 từ
  • 1.000 token ≈ 750 từ (khoảng 2 trang giấy A4)
  • 1 triệu token ≈ 750.000 từ (khoảng 4 cuốn tiểu thuyết)

Code, tiếng Việt, tiếng Trung, tiếng Ả Rập và emoji đốt nhiều token hơn trên mỗi ký tự hiển thị. Một dòng Python thường dùng 1.5× số token so với tiếng Anh tương đương. Tiếng Việt có thể dùng 2–3× vì dấu thanh. Luôn test với nội dung thực tế nếu cần độ chính xác cao.

Provider tính riêng token input (bạn gửi cho model — system prompt + tin nhắn user + context truy xuất) và token output (model viết trả về). Token output thường đắt hơn input 3–5 lần vì generation chậm và tốn compute hơn.

Công thức tính chi phí token là gì?

Công thức cơ bản:

cost_per_request = (input_tokens × giá_input_triệu) / 1.000.000
                 + (output_tokens × giá_output_triệu) / 1.000.000

monthly_cost = cost_per_request × số_request_mỗi_tháng

Ví dụ thực tế. Bạn xây chatbot hỗ trợ khách hàng dùng Claude Sonnet 4.6. Mỗi cuộc hội thoại trung bình:

  • 2.000 token input (system prompt + lịch sử tin nhắn + knowledge base truy xuất)
  • 300 token output (câu trả lời của bot)
  • 50.000 cuộc hội thoại/tháng

Với giá Sonnet 4.6 là $3/triệu input và $15/triệu output:

input_cost  = 2000 × $3  / 1.000.000 = $0.006/request
output_cost = 300  × $15 / 1.000.000 = $0.0045/request
total       = $0.0105/request
monthly     = $0.0105 × 50.000 = $525

Giờ so sánh với Claude Haiku 4.5 ($0.80/M input, $4/M output):

input_cost  = 2000 × $0.80 / 1.000.000 = $0.0016
output_cost = 300  × $4    / 1.000.000 = $0.0012
total       = $0.0028/request
monthly     = $0.0028 × 50.000 = $140

Đó là tiết kiệm 73% chỉ bằng việc đổi model. Liệu Haiku có đủ tốt cho task không là câu hỏi khác — nhưng chênh lệch chi phí lớn đến mức đáng để pilot 1 tuần.

Model AI nào có token rẻ nhất 2026?

Giá thay đổi hàng tháng, nhưng tính đến tháng 5/2026 các model production cấp rẻ nhất là:

ModelInput/1MOutput/1MTối ưu cho
Amazon Nova Lite$0.06$0.24Phân loại high-volume, chat đơn giản
Google Gemini 2.5 Flash$0.30$2.50Chat nhanh, context dài (1M token)
DeepSeek V3$0.27$1.10Reasoning với giá budget
GPT-5 mini$0.40$1.60Workhorse rẻ tương thích OpenAI
Claude Haiku 4.5$0.80$4.00Model rẻ tốt nhất cho task yêu cầu chất lượng
Mistral Small 3$0.20$0.60Option châu Âu rẻ nhất

Trong nhóm model flagship (trí thông minh cao nhất), các option rẻ nhất:

ModelInput/1MOutput/1M
Mistral Large 2$2.00$6.00
Amazon Nova Pro$0.80$3.20
Google Gemini 2.5 Pro$2.50$15.00
Claude Sonnet 4.6$3.00$15.00
OpenAI GPT-5$10.00$30.00
Claude Opus 4.7$15.00$75.00

Chiến lược phổ biến 2026 là routing 2 tầng: dùng Haiku 4.5 hoặc Gemini Flash cho 90% request, escalate lên Sonnet 4.6 hoặc GPT-5 chỉ khi model rẻ không đủ tự tin. Các team báo cáo tiết kiệm 60–80% mà không có sụt giảm chất lượng đo lường được.

Prompt caching giảm hóa đơn token bao nhiêu?

Prompt caching là đòn bẩy chi phí lớn nhất của 2026. Khi bạn gửi cùng một tiền tố dài lặp lại (system prompt, RAG context, tool schemas), provider lưu nó server-side và tính giá thấp ở các lần hit tiếp theo.

Discount cache-hit theo provider:

  • Anthropic: input cached tính 10% giá input thường (giảm 90%)
  • OpenAI: input cached tính 50% (giảm 50%)
  • Google Vertex / AI Studio: input cached 25% (giảm 75%)
  • DeepSeek: input cached 26% (giảm 74%)
  • Amazon Nova: input cached 25% (giảm 75%)
  • xAI Grok: input cached 25% (giảm 75%)

App RAG thực tế gửi 4.000 token input (phần lớn là context truy xuất) và nhận về 600 token output. Nếu 70% token input đó là cache hit (đoạn văn vừa fetched được tái sử dụng trong follow-up), chi phí Sonnet 4.6 giảm:

không cache: 4000 × $3 + 600 × $15 = $0.0210/request
70% cache:   (4000 × 0.3 × $3 + 4000 × 0.7 × $0.30) + 600 × $15
           = $0.0036 + $0.00084 + $0.009
           = $0.0134/request — rẻ hơn 36%

Bẫy: chi phí cache-write đắt hơn input thường trên một số provider. Anthropic tính 1.25× giá input để ghi vào cache, nên bạn chỉ hòa vốn sau 4–5 lần đọc cùng tiền tố đó. Cache là thất bại với request một lần.

Làm sao ước tính chi phí hàng tháng cho app production?

Dùng framework 4 bước này:

  1. Đo số token thực tế cho 50–100 request production thật. Đừng tin các prompt bạn viết trong dev — prompt production luôn dài 2–3× vì context truy xuất và lịch sử tool-call.
  2. Profile tỷ lệ input/output. App chat chạy 70/30 nặng input. Summarization chạy 95/5. Code generation chạy 50/50. Tỷ lệ quyết định model nào rẻ nhất cho bạn.
  3. Tính cache thực tế. Giả định 50% cache hit rate làm xuất phát điểm trừ khi traffic của bạn dạng burst (rồi 20%) hoặc ổn định và đối thoại (rồi 70–80%).
  4. Thêm buffer 30% cho "inference tax" — retry khi tool-call lỗi, bước re-summarization, tool call đầu cơ bị rollback. Buffer này cũng là giả định mặc định trong Calculator chi phí phát triển Agent.

Cắm 4 con số đó vào công thức ở trên (hoặc dùng LLM Monthly Cost Estimator) và bạn sẽ trong sai số 15% của hóa đơn thực.

Các chi phí ẩn team thường quên?

Chi phí token hiếm khi là tổng chi phí AI. Năm hạng mục team thường tính thiếu:

  • Phụ phí region. AWS Bedrock và GCP Vertex tính cao hơn 5–15% ở EU/APAC so với us-east-1.
  • Egress fee. AWS tính $0.09/GB egress. App inference streaming output dài có thể có egress sánh ngang chi phí token.
  • Chi phí embedding. App RAG re-embed tài liệu mỗi lần update. Ở $0.10/M embed token × 10M token tài liệu = $1/refresh — 30 lần/tháng là $30.
  • Vector DB. Index 1M vector với 50k query/ngày tốn $40–200/tháng tùy provider — xem Vector DB Cost Estimator.
  • Observability. LangSmith, Helicone, Langfuse đều tính theo trace. 100k request/tháng full-trace logging, dự kiến $50–150/tháng.

Hóa đơn AI production thực tế đại khái: 60% inference, 15% vector DB, 10% observability, 10% orchestration/sandbox, 5% egress. Nếu inference của bạn dưới 60% tổng hóa đơn, hãy tìm chỗ lãng phí — thường là tính năng không dùng hoặc logging dư.

Bao lâu nên xem lại lựa chọn model?

Mỗi 60 ngày. Các provider cắt giá, ship model mới, và thay đổi discount cache với chu kỳ nhanh hơn quy trình lập budget của hầu hết team. AITOT refresh Bộ so sánh giá tokennguồn dữ liệu vào ngày 1 mỗi tháng — xem timestamp ở đầu mỗi tool.

Model rẻ nhất của 6 tháng trước hầu như không bao giờ là model rẻ nhất hôm nay. DeepSeek V3, Gemini Flash và Amazon Nova Lite đều cắt giá ≥30% trong năm qua. Chạy lại calculator hàng quý là khoản đầu tư 1 tiếng thường tiết kiệm 5 chữ số mỗi năm cho workload production.