Model embedding rẻ nhất 2026?

Option open-weight hosted — BGE-M3 và bge-large-en trên Together $0,008/M token. Cho commercial/closed-weight, Jina v3 $0,012/M rẻ nhất. So sánh: OpenAI text-embedding-3-small $0,02/M, Voyage 3 $0,06/M, OpenAI 3-large $0,13/M.

Voyage AI có đáng giá hơn OpenAI không?

Với app retrieval-heavy, thường có. Voyage 3 xếp cao hơn OpenAI text-embedding-3-large trên hầu hết task MTEB 2025–2026 ở khoảng nửa giá. Voyage 3 Large hơn OpenAI 5–8% trên benchmark retrieval. Cho general-purpose, OpenAI 3-small $0,02/M là pick giá trị.

Tính chi phí embedding cho RAG corpus như nào?

Chi phí = total_token × refresh_per_month × rate_per_million + query_token × rate. Corpus 50M token refresh hàng tháng với 5M query token/tháng tốn $1,10/tháng trên OpenAI 3-small hoặc $3,30/tháng trên Voyage 3.

Có nên tự host model embedding?

Trên 50M token/tháng, có. BGE-M3 hoặc Nomic Embed trên L40S GPU $0,99/giờ có thể embed ~5M token/phút, tức ~$0,001/M token — rẻ hơn 8× option hosted rẻ nhất. Dưới đó, hosted API thắng về đơn giản vận hành.

Nên re-embed corpus bao lâu một lần?

Tùy cadence update. Knowledge base tĩnh: không bao giờ re-embed trừ khi đổi model. Doc thường xuyên edit: re-embed chunk update riêng (hầu hết API support), không phải toàn corpus. Switch model embedding: re-embed mọi thứ (đắt — budget trước).

Blog

Giá Embeddings AI 2026: OpenAI vs Voyage vs Cohere vs Jina

Q: Matryoshka embedding là gì?

Matryoshka embedding cho phép truncate vector output xuống dimension nhỏ hơn sau khi tạo, không cần re-embed. OpenAI 3-large (3072 dim) có thể truncate xuống 512 dim với ~5% recall loss, cắt storage vector DB 6×. Voyage v3 và Gemini Embedding cũng hỗ trợ.

So sánh 17 model embedding theo chi phí mỗi 1M token năm 2026 — OpenAI 3-small/large, Voyage 3, Cohere v3, Jina v4, BGE-M3, Nomic.

Updated 2026-05-116 min read· By AITOT Editorial

Giá embedding AI 2026 trải dài 16× từ $0,008/M token trên model open-weight hosted như BGE-M3 đến $0,18/M trên Voyage 3 Large. Embedding là dòng rẻ nhất trong hầu hết hóa đơn RAG, nhưng ở corpus rất lớn (100M+ token) thành số thực — và chọn sai model có hệ quả compound vì re-embed để chuyển đổi sau này đắt. Bài này so sánh 17 model embedding với kịch bản tính toán. Cho real-time pricing, dùng Calculator Chi phí Embeddings AI.

Giá embedding 2026 thực tế?

Chi phí trên 1M token, sắp xếp rẻ nhất trước:

Model	$/M token	Dimension	Max input	Ghi chú
Together BGE-M3	$0,008	1024	8192	Open-weight
Together bge-large-en	$0,008	1024	512
Fireworks Nomic Embed	$0,008	768	8192
Jina v3	$0,012	1024	8192	Configurable
Jina v4	$0,018	2048	32000	Configurable
OpenAI text-embedding-3-small	$0,02	1536	8191	Matryoshka
Voyage 3 Lite	$0,02	512	32000
AWS Titan Embed v2	$0,02	1024	8192	Matryoshka
Google text-embedding-005	$0,025	768	2048
Voyage 3	$0,06	1024	32000
Cohere embed-english-v3.0	$0,10	1024	512
Cohere embed-multilingual-v3.0	$0,10	1024	512
Mistral mistral-embed	$0,10	1024	8192
Google gemini-embedding-exp	$0,10	3072	8192	Configurable
OpenAI text-embedding-3-large	$0,13	3072	8191	Matryoshka
Voyage 3 Large	$0,18	1024	32000	Top MTEB
Voyage code-3	$0,18	1024	32000	Code-specialized

Với hầu hết RAG production, pick sweet-spot là OpenAI 3-small $0,02/M (capability rộng, hỗ trợ tốt) và Voyage 3 $0,06/M (retrieval tốt hơn ở premium vừa).

Nên dùng model embedding nào 2026?

Decision tree theo use case:

Retrieval general-purpose, English-heavy — OpenAI text-embedding-3-small $0,02/M. Ecosystem được support tốt nhất.
Content đa ngôn ngữ — Cohere embed-multilingual-v3.0 $0,10/M, hoặc Voyage 3 $0,06/M.
Code search — Voyage code-3 $0,18/M. Train cho code retrieval; hơn general 15–25%.
Retrieval chất lượng tốt nhất ở giá nào — Voyage 3 Large $0,18/M. Top MTEB 2025–2026.
Lãnh thổ break-even tự host (>50M token/tháng) — BGE-M3 hoặc Nomic Embed trên GPU riêng.
Doc dài (chương sách, paper) — Voyage 3 hoặc Jina v4 ở 32k token max input. Tránh artifact chunking.
EU data residency — Mistral mistral-embed $0,10/M.
Stack AWS-native — Titan Embed v2 $0,02/M. Bundled với Bedrock.

Pattern 2026 phổ biến là embedding 2 tier: embed phần lớn corpus với BGE-M3 rẻ hoặc Jina v3, sau đó re-embed chỉ 10% traffic cao nhất với Voyage 3 Large premium retrieval. Tiết kiệm 60–80% so với embed mọi thứ với model premium.

Tính chi phí embedding cho RAG corpus?

Công thức:

one_time = corpus_tokens × per_million_rate
monthly_refresh = corpus_tokens × refresh_per_month × per_million_rate
monthly_query = query_tokens_per_month × per_million_rate
year_one = one_time + (monthly_refresh + monthly_query) × 12

Ví dụ: corpus 50M token (~50.000 doc), refresh hàng tháng 25%, 5M query token/tháng:

OpenAI 3-small ($0,02/M):
  One-time: 50M × $0,02 = $1,00
  Monthly refresh: 50M × 0,25 × $0,02 = $0,25/tháng
  Monthly query: 5M × $0,02 = $0,10/tháng
  Year 1: $1 + ($0,35 × 12) = $5,20

Voyage 3 Large ($0,18/M):
  Year 1: $46,80

BGE-M3 tự host trên L40S $0,99/h (~$0,001/M):
  Year 1: $0,26 compute + $200 ops time

Chênh lệch giá đầu trang thật nhưng nhỏ absolute. Chi phí thật của chọn sai là re-embed khi switch model — switch Cohere sang Voyage trên corpus 50M token là $5 trên OpenAI 3-small. Trivial trừ khi corpus >5B token. Vậy chọn theo chất lượng retrieval, không phải chi phí embedding.

Matryoshka embedding là gì và tại sao quan trọng?

Matryoshka representation learning train model sao cho truncate vector output ở điểm nào vẫn cho embedding hữu dụng. Tiết kiệm storage lớn:

OpenAI text-embedding-3-large output 3072 dim. Lưu 1M vector ở 4 byte = 11,7 GB.
Truncate xuống 512 dim: 1,95 GB. Storage rẻ 6× với 3–5% recall loss.
Truncate xuống 256: 977 MB. Rẻ 12× với 8–12% recall loss.

Model Matryoshka-compatible 2026:

OpenAI text-embedding-3-small (1536 → 256/512/768/1024)
OpenAI text-embedding-3-large (3072 → 256/512/1024/1536)
Voyage 3 family (1024 → 128/256/512/768)
Google gemini-embedding-exp (3072 → 768/1536)
AWS Titan Embed v2 (1024 → 256/512)
Jina v3 và v4 (configurable lúc request)

Cohere v3 và Mistral KHÔNG hỗ trợ truncation. Nếu dự đoán downsize sau này, pick từ list configurable trên.

Chi phí ẩn embedding?

Bốn khoản team thường tính thiếu:

Chunking strategy compute. Thuật toán chunking (semantic chunking) cần LLM call riêng. Plan $5–$20/M corpus token cho chunking chất lượng cao.
Re-embed khi switch model. Adopt model tốt hơn = re-embed toàn corpus. Plan ~$10/100M token.
Lạm phát query embedding. Mọi query user được embed. Naive embed raw query (~30 token), nhưng hybrid search và HyDE re-write query lên 300+ token — 10× chi phí embed/query.
Storage trong vector DB. Chi phí embed trivial so với lưu vector. Corpus 50M token → ~50M vector → 200GB ở float32 1536-dim. Vector DB cost dominate embed cost trên 1M vector.

Cho RAG bill đầy đủ gồm vector DB, retrieval, reranking, generation, xem Calculator Tổng Chi phí RAG. Cho embed-only forecasting, dùng Calculator Chi phí Embeddings.

Khi nào tự host embedding?

Toán break-even:

Sàn hosted API: $0,008/M (BGE-M3 trên Together)
L40S GPU thuê $0,99/giờ: embed ~5M token/phút = 300M token/giờ
Chi phí hosted hiệu dụng trên L40S: $0,99 ÷ 300 = $0,003/M token

Vậy thuê GPU cho embed tự host rẻ hơn ~3× hosted API rẻ nhất. Nhưng:

GPU chạy dù bạn có embed hay không. Nếu chỉ 10M token/tháng để embed, bạn trả $0,99 × 720 = $713 idle GPU time cho $30 embedding work.
Break-even ~50M token/tháng — trên đó, tự host thắng.
Overhead operations thật. Plan 0,1–0,2 FTE platform engineering cho endpoint embedding production.

Cho batch embedding job (re-embed corpus on-demand), spin up GPU chỉ cho job: 100M token mất ~20 phút trên L40S, tốn $0,33. Hosted API tốn $0,80–$26 tùy model. Win lớn cho batch một lần.

Nên switch model embedding bao lâu một lần?

Ít hơn bạn nghĩ. Chi phí là pass re-embed. Guideline thực tế:

Giữ nếu model hiện tại trong 10% của best hiện tại trên benchmark retrieval cụ thể của bạn.
Switch khi model mới offer >15% improvement trên benchmark VÀ corpus đủ nhỏ để re-embed cost dưới 5% budget RAG hàng năm.
Adopt model mới song song vài tuần trước khi cut over hoàn toàn — giữ cả hai vector index, A/B retrieval.

Calculator Chi phí Embeddings so sánh 17 model với corpus size và query rate cụ thể của bạn, gồm cả one-time và recurring. Cho decision RAG kiến trúc rộng hơn, Vector DB Cost Estimator và Calculator Tổng Chi phí RAG extend phân tích lên full stack.

Giá embedding thay đổi chậm hơn LLM token pricing — shift lớn khoảng 2 lần/năm. AITOT refresh calculator ngày 1 mỗi tháng.