AITOT
Blog

Hướng Dẫn Chi Phí Fine-tuning LLM 2026: OpenAI, Mistral, Together

Tính chi phí fine-tuning LLM 2026 — training token × epoch + inference uplift. So sánh 12 provider OpenAI, Mistral, Together, Fireworks, AWS.

6 min read· By AITOT Editorial

Chi phí fine-tuning LLM năm 2026 gồm 2 thành phần mà team thường tính thiếu: chi phí training một lần $1–$300 tùy kích thước corpus, và inference uplift định kỳ 1,5–4× rate per-token của base model mà bạn trả suốt vòng đời fine-tune. Tổng năm 1 cho fine-tune 5M token điển hình dùng ở 100M token inference/tháng từ $200 (Fireworks Llama 4 8B) đến $5.000+ (OpenAI GPT-4o). Cho math real-time trên 12 provider, dùng Calculator Chi phí Fine-tuning LLM.

Fine-tuning có thời kỳ phục hưng 2026 sau giai đoạn RAG-dominant 2024–2025. LoRA adapter rẻ, cộng với việc nhận ra model 8B fine-tune thường đánh bại base 70B trên task hẹp, đã shift cost-quality frontier.

Chi phí thực tế fine-tuning 2026 là gì?

Project fine-tuning điển hình 2026:

  • Corpus training: 5 triệu token (~8.000 conversation × 600 token, hoặc 500 doc dài × 10k token)
  • Epoch: 3 pass qua corpus
  • Volume inference production: 100M token/tháng, split 80/20 input/output

Chi phí năm 1 trên các provider cho workload đó:

ProviderBase modelTrainingInference/thángTổng năm 1
FireworksLlama 4 8B$7,50$20$248
TogetherLlama 4 8B$15$22$279
FireworksLlama 4 70B$45$90$1.125
OpenAIGPT-4o mini$45$54$693
MistralMistral Small 3$45$74$933
OpenAIGPT-5 mini$60$108$1.356
TogetherLlama 4 70B$90$120$1.530
CohereCommand R$30$54$678
OpenAIGPT-4o$375$510$6.495

Chênh 26× cho cùng workload. Fireworks và Together dominate giá cho Llama fine-tune. OpenAI GPT-4o fine-tune premium nhưng xứng đáng chỉ khi capabilities GPT-4o là bắt buộc.

Công thức chi phí fine-tuning?

Công thức năm 1 đầy đủ:

training_cost = training_tokens × epochs × per_million_training_rate

monthly_inference = (input_tokens × input_rate
                   + output_tokens × output_rate) / 1.000.000
                   + hosting_fee_per_month

year_one_total = training_cost + (monthly_inference × 12)

Ví dụ: fine-tune GPT-4o mini trên 5M token × 3 epoch, sau đó chạy 100M token inference/tháng 80/20:

Training: 5 × 3 × $3,00      = $45
Input cost: 80M × $0,30/M    = $24/tháng
Output cost: 20M × $1,20/M   = $24/tháng
Hosting: $0/tháng
Tháng: $48
Năm 1: $45 + ($48 × 12) = $621

Lưu ý rate inference ($0,30/M input model fine-tune) là 2× rate base GPT-4o mini ($0,15/M). Đó là "inference uplift" — mọi model fine-tune đều có. Plan quanh nó.

Nên dùng provider nào để fine-tune?

Decision tree theo mục tiêu:

  • Đường rẻ nhất tới model custom hoạt động — Fireworks hoặc Together trên Llama 4 8B. Thí nghiệm training $1 là thực tế. Inference $0,20/M flat.
  • Cần tương thích ecosystem OpenAI (dùng OpenAI Realtime, Assistants...) — OpenAI fine-tune GPT-4o mini $3/M training. Đắt hơn nhưng plug-and-play.
  • Data residency châu Âu hoặc sovereignty — Mistral. Capability tương đương ở chi phí cao hơn chút.
  • Chất lượng fine-tune tốt nhất ở giá nào — OpenAI GPT-4o fine-tune. Uplift 1,5× thấp nhất giữa premium provider.
  • Fine-tune Claude custom — AWS Bedrock Custom Model Import. Đường duy nhất. Đắt ($15+/tháng hosting) và cần provisioned throughput.
  • Chuyên cho retrieval/chat — Cohere Command R fine-tune. RAG-optimized.

Pattern thực tế: prototype trên Fireworks Llama 4 8B ($7,50 thí nghiệm), sau đó nếu approach work, promote sang Llama lớn hơn (Together 70B) hoặc OpenAI GPT-4o mini tùy ecosystem cần.

Khi nào fine-tune rẻ hơn RAG?

Trade-off 2026:

Kịch bảnRAGFine-tuning
Knowledge thay đổi hàng ngày✅ thắng❌ stale
Knowledge ổn định nhiều tháng⚠️ overkill✅ rẻ hơn ở scale
<1M query/tháng✅ thường rẻ hơn❌ training cost dominate
>10M query/tháng❌ vector DB scale✅ uplift cố định
Cần citation verify✅ retrieval show source❌ knowledge baked in
Cần style/tone custom❌ system prompt + few-shot✅ tốt hơn nhiều

Best practice 2026 là cả hai: fine-tune cho style, tone, core domain knowledge, sau đó RAG cho fact hiện tại và citation. Fine-tune Llama 4 8B trên Fireworks $0,20/M cộng index Pinecone Serverless nhỏ thường rẻ hơn GPT-5 + RAG 3–5×.

Chi phí ẩn nào đi kèm fine-tuning?

Năm khoản thường bị quên:

  • Lao động chuẩn bị data. 80% effort fine-tune đi vào curate, clean, format data. Plan $2.000–$10.000 thời gian engineer mỗi project, vượt xa chi phí training.
  • Chi phí evaluation. Validate fine-tune cần chạy golden-set evaluation — 100–500 example qua cả base và fine-tune. Ở $0,50–$2,00/eval set, có thể match training cost.
  • Phí hosting. Mistral tính $2–$4/tháng/adapter deployed kể cả zero traffic. AWS Bedrock tính provisioned throughput theo giờ. Plan quanh các sàn này.
  • Cycle re-train. Fine-tune drift khi data evolve. Plan re-train theo quý — đó là 4× training cost hàng năm, không phải 1×.
  • Storage versioning. Maintain 3–5 version lịch sử cho rollback. Miễn phí trên OpenAI/Mistral; phí nhỏ trên Together/Fireworks.

Cho budget năm 1 đầy đủ, dùng Calculator Chi phí Fine-tuning. Cho planning rộng hơn kết hợp fine-tune với base-model inference và RAG, xem Calculator Chi phí Agent.

Nên LoRA hay full fine-tune?

LoRA fine-tune train adapter layer nhỏ (~1% weight) thay vì full model. Rẻ hơn nhiều:

ApproachTraining cost (5M × 3 trên Llama 4 70B)Chất lượng inference
LoRA fine-tune$90Trong 2–5% full fine-tune
Full fine-tune$4.500Reference

Với 95% use case, LoRA thắng quyết đoán. Dùng full fine-tune chỉ khi:

  • Cần dạy kiến thức factual mới (vs style/format/tone)
  • Cần thay đổi tokenizer hoặc vocabulary
  • Chạy nhiều LoRA cùng lúc và muốn merged model duy nhất cho đơn giản serving

Together và Fireworks mặc định LoRA. OpenAI "fine-tuning" technically LoRA-equivalent ở layer user. Mistral và AWS Bedrock hỗ trợ cả hai.

Giá fine-tuning thay đổi với tần suất nào?

Mỗi 3–6 tháng với provider lớn. Fireworks và Together (cạnh tranh nhất) re-price thường xuyên hơn dựa trên GPU cost. OpenAI và Mistral re-tier khoảng hàng năm.

Biến động lớn hơn đến từ base model mới. Khi Llama 4.1 ship (dự kiến Q3 2026), rate fine-tune model mới sẽ bắt đầu ~20–30% trên rate Llama 4 hiện tại, sau đó giảm. Plan re-benchmark fine-tune với base model mới theo quý.

Cho theo dõi liên tục, Calculator Chi phí Fine-tuning refresh hàng tháng. Cho cost planning bổ sung quanh model fine-tune production, Bộ so sánh giá token cover context giá base và Calculator giá thuê GPU cho thấy training chạy trên hardware gì.