AITOT
Blog

Giá Embeddings AI 2026: OpenAI vs Voyage vs Cohere vs Jina

So sánh 17 model embedding theo chi phí mỗi 1M token năm 2026 — OpenAI 3-small/large, Voyage 3, Cohere v3, Jina v4, BGE-M3, Nomic.

6 min read· By AITOT Editorial

Giá embedding AI 2026 trải dài 16× từ $0,008/M token trên model open-weight hosted như BGE-M3 đến $0,18/M trên Voyage 3 Large. Embedding là dòng rẻ nhất trong hầu hết hóa đơn RAG, nhưng ở corpus rất lớn (100M+ token) thành số thực — và chọn sai model có hệ quả compound vì re-embed để chuyển đổi sau này đắt. Bài này so sánh 17 model embedding với kịch bản tính toán. Cho real-time pricing, dùng Calculator Chi phí Embeddings AI.

Giá embedding 2026 thực tế?

Chi phí trên 1M token, sắp xếp rẻ nhất trước:

Model$/M tokenDimensionMax inputGhi chú
Together BGE-M3$0,00810248192Open-weight
Together bge-large-en$0,0081024512
Fireworks Nomic Embed$0,0087688192
Jina v3$0,01210248192Configurable
Jina v4$0,018204832000Configurable
OpenAI text-embedding-3-small$0,0215368191Matryoshka
Voyage 3 Lite$0,0251232000
AWS Titan Embed v2$0,0210248192Matryoshka
Google text-embedding-005$0,0257682048
Voyage 3$0,06102432000
Cohere embed-english-v3.0$0,101024512
Cohere embed-multilingual-v3.0$0,101024512
Mistral mistral-embed$0,1010248192
Google gemini-embedding-exp$0,1030728192Configurable
OpenAI text-embedding-3-large$0,1330728191Matryoshka
Voyage 3 Large$0,18102432000Top MTEB
Voyage code-3$0,18102432000Code-specialized

Với hầu hết RAG production, pick sweet-spot là OpenAI 3-small $0,02/M (capability rộng, hỗ trợ tốt) và Voyage 3 $0,06/M (retrieval tốt hơn ở premium vừa).

Nên dùng model embedding nào 2026?

Decision tree theo use case:

  • Retrieval general-purpose, English-heavy — OpenAI text-embedding-3-small $0,02/M. Ecosystem được support tốt nhất.
  • Content đa ngôn ngữ — Cohere embed-multilingual-v3.0 $0,10/M, hoặc Voyage 3 $0,06/M.
  • Code search — Voyage code-3 $0,18/M. Train cho code retrieval; hơn general 15–25%.
  • Retrieval chất lượng tốt nhất ở giá nào — Voyage 3 Large $0,18/M. Top MTEB 2025–2026.
  • Lãnh thổ break-even tự host (>50M token/tháng) — BGE-M3 hoặc Nomic Embed trên GPU riêng.
  • Doc dài (chương sách, paper) — Voyage 3 hoặc Jina v4 ở 32k token max input. Tránh artifact chunking.
  • EU data residency — Mistral mistral-embed $0,10/M.
  • Stack AWS-native — Titan Embed v2 $0,02/M. Bundled với Bedrock.

Pattern 2026 phổ biến là embedding 2 tier: embed phần lớn corpus với BGE-M3 rẻ hoặc Jina v3, sau đó re-embed chỉ 10% traffic cao nhất với Voyage 3 Large premium retrieval. Tiết kiệm 60–80% so với embed mọi thứ với model premium.

Tính chi phí embedding cho RAG corpus?

Công thức:

one_time = corpus_tokens × per_million_rate
monthly_refresh = corpus_tokens × refresh_per_month × per_million_rate
monthly_query = query_tokens_per_month × per_million_rate
year_one = one_time + (monthly_refresh + monthly_query) × 12

Ví dụ: corpus 50M token (~50.000 doc), refresh hàng tháng 25%, 5M query token/tháng:

OpenAI 3-small ($0,02/M):
  One-time: 50M × $0,02 = $1,00
  Monthly refresh: 50M × 0,25 × $0,02 = $0,25/tháng
  Monthly query: 5M × $0,02 = $0,10/tháng
  Year 1: $1 + ($0,35 × 12) = $5,20

Voyage 3 Large ($0,18/M):
  Year 1: $46,80

BGE-M3 tự host trên L40S $0,99/h (~$0,001/M):
  Year 1: $0,26 compute + $200 ops time

Chênh lệch giá đầu trang thật nhưng nhỏ absolute. Chi phí thật của chọn sai là re-embed khi switch model — switch Cohere sang Voyage trên corpus 50M token là $5 trên OpenAI 3-small. Trivial trừ khi corpus >5B token. Vậy chọn theo chất lượng retrieval, không phải chi phí embedding.

Matryoshka embedding là gì và tại sao quan trọng?

Matryoshka representation learning train model sao cho truncate vector output ở điểm nào vẫn cho embedding hữu dụng. Tiết kiệm storage lớn:

  • OpenAI text-embedding-3-large output 3072 dim. Lưu 1M vector ở 4 byte = 11,7 GB.
  • Truncate xuống 512 dim: 1,95 GB. Storage rẻ 6× với 3–5% recall loss.
  • Truncate xuống 256: 977 MB. Rẻ 12× với 8–12% recall loss.

Model Matryoshka-compatible 2026:

  • OpenAI text-embedding-3-small (1536 → 256/512/768/1024)
  • OpenAI text-embedding-3-large (3072 → 256/512/1024/1536)
  • Voyage 3 family (1024 → 128/256/512/768)
  • Google gemini-embedding-exp (3072 → 768/1536)
  • AWS Titan Embed v2 (1024 → 256/512)
  • Jina v3 và v4 (configurable lúc request)

Cohere v3 và Mistral KHÔNG hỗ trợ truncation. Nếu dự đoán downsize sau này, pick từ list configurable trên.

Chi phí ẩn embedding?

Bốn khoản team thường tính thiếu:

  • Chunking strategy compute. Thuật toán chunking (semantic chunking) cần LLM call riêng. Plan $5–$20/M corpus token cho chunking chất lượng cao.
  • Re-embed khi switch model. Adopt model tốt hơn = re-embed toàn corpus. Plan ~$10/100M token.
  • Lạm phát query embedding. Mọi query user được embed. Naive embed raw query (~30 token), nhưng hybrid search và HyDE re-write query lên 300+ token — 10× chi phí embed/query.
  • Storage trong vector DB. Chi phí embed trivial so với lưu vector. Corpus 50M token → ~50M vector → 200GB ở float32 1536-dim. Vector DB cost dominate embed cost trên 1M vector.

Cho RAG bill đầy đủ gồm vector DB, retrieval, reranking, generation, xem Calculator Tổng Chi phí RAG. Cho embed-only forecasting, dùng Calculator Chi phí Embeddings.

Khi nào tự host embedding?

Toán break-even:

  • Sàn hosted API: $0,008/M (BGE-M3 trên Together)
  • L40S GPU thuê $0,99/giờ: embed ~5M token/phút = 300M token/giờ
  • Chi phí hosted hiệu dụng trên L40S: $0,99 ÷ 300 = $0,003/M token

Vậy thuê GPU cho embed tự host rẻ hơn ~3× hosted API rẻ nhất. Nhưng:

  • GPU chạy dù bạn có embed hay không. Nếu chỉ 10M token/tháng để embed, bạn trả $0,99 × 720 = $713 idle GPU time cho $30 embedding work.
  • Break-even ~50M token/tháng — trên đó, tự host thắng.
  • Overhead operations thật. Plan 0,1–0,2 FTE platform engineering cho endpoint embedding production.

Cho batch embedding job (re-embed corpus on-demand), spin up GPU chỉ cho job: 100M token mất ~20 phút trên L40S, tốn $0,33. Hosted API tốn $0,80–$26 tùy model. Win lớn cho batch một lần.

Nên switch model embedding bao lâu một lần?

Ít hơn bạn nghĩ. Chi phí là pass re-embed. Guideline thực tế:

  • Giữ nếu model hiện tại trong 10% của best hiện tại trên benchmark retrieval cụ thể của bạn.
  • Switch khi model mới offer >15% improvement trên benchmark VÀ corpus đủ nhỏ để re-embed cost dưới 5% budget RAG hàng năm.
  • Adopt model mới song song vài tuần trước khi cut over hoàn toàn — giữ cả hai vector index, A/B retrieval.

Calculator Chi phí Embeddings so sánh 17 model với corpus size và query rate cụ thể của bạn, gồm cả one-time và recurring. Cho decision RAG kiến trúc rộng hơn, Vector DB Cost EstimatorCalculator Tổng Chi phí RAG extend phân tích lên full stack.

Giá embedding thay đổi chậm hơn LLM token pricing — shift lớn khoảng 2 lần/năm. AITOT refresh calculator ngày 1 mỗi tháng.