Vector database nào rẻ nhất cho app RAG nhỏ?

Supabase pgvector $25/tháng bao 8GB storage với query không giới hạn — đủ cho ~5M vector nhỏ. Turbopuffer rẻ hơn ở quy mô lớn ($0.04/GB storage) nhưng tính phí mỗi query. Dưới 100k vector, self-host pgvector trên VM $20 thắng mọi managed option.

Ở 1 triệu vector, Pinecone hay Qdrant rẻ hơn?

Với 1M vector 1536 dimension và 50.000 query/ngày, Qdrant Cloud tốn khoảng $80/tháng còn Pinecone Serverless $40–60/tháng tùy query volume. Dưới 10M vector Pinecone thắng; trên 10M giá theo-node của Qdrant scale tốt hơn.

Cách tính kích thước lưu trữ vector?

Kích thước thô = số_vector × dimension × byte_mỗi_float. Float32 = 4 byte, float16 = 2, int8 = 1, binary = 0.125. Cộng 30–50% overhead index cho HNSW. Vậy 1M vector float32 1536-dim = 5.7GB thô + ~2GB index = 8GB tổng.

Quantization có tiết kiệm chi phí vector database không?

Có, đáng kể. Chuyển từ float32 sang int8 cắt storage 75% với mất khoảng 5% recall. Binary quantization cắt 97% nhưng cần reranking. Trên Pinecone Serverless, tiết kiệm 75% storage đó dịch ra giảm 60–70% hóa đơn cho workload nặng storage.

Đơn vị query của vector database là gì?

Pinecone tính 'Read Units' với 1 RU bằng 1 query trả về khoảng 1KB payload. Hầu hết provider khác tính trên triệu query trực tiếp. Qdrant Cloud tính trên node-giờ với query không giới hạn trong capacity của node.

Có nên chỉ dùng Postgres pgvector thay thế không?

Dưới 10M vector và dưới 100 query/giây, pgvector trên Postgres managed (Supabase, Neon, Render) là option rẻ nhất và ít operations nhất. Trên 10M vector hoặc 1000 query/giây, vector DB chuyên dụng bắt đầu thắng về latency.

Blog

Giá Vector Database 2026: Pinecone vs Qdrant vs Supabase

So sánh chi phí vector database 2026 — Pinecone, Qdrant, Weaviate, Supabase pgvector, Turbopuffer và các provider khác, kèm ví dụ workload RAG thực tế.

Updated 2026-05-117 min read· By AITOT Editorial

Giá vector database 2026 trải dài từ $0 (self-host Postgres pgvector) tới hơn $400/tháng cho cùng một workload RAG 1 triệu vector, tùy provider, tỷ lệ query và lựa chọn quantization. Bài hướng dẫn này phân tích 9 provider trên các workload RAG thực tế (100k đến 100M vector) để bạn chọn đúng cho quy mô của mình. Để so sánh real-time với số liệu của bạn, dùng Vector DB Cost Estimator của AITOT.

Vector DB thường chiếm 10–25% tổng hóa đơn hạ tầng của app AI — đủ nhỏ để bỏ qua ở quy mô MVP, đủ lớn để chi phối quyết định ở quy mô production. Tin tốt là toán học dự đoán được hơn chi phí token LLM: scale tuyến tính theo vector, dimension, query.

Vector database tính phí cho cái gì?

Ba hạng mục xuất hiện trên mọi hóa đơn vector DB:

Storage — thường tính theo GB-tháng dữ liệu đã index. Overhead index (HNSW thường 1.3–1.5×) làm byte lưu lớn hơn vector thô 30–50%.
Reads — tính theo triệu query, hoặc bundled vào node-giờ. Hybrid search (vector + keyword) thường gấp 2× query vector thuần.
Writes — tính theo triệu upsert. Re-index tài liệu hot-reload toàn bộ HNSW graph, nên update thường xuyên có thể chi phối hóa đơn.

Hạng mục thứ tư ẩn: plan minimum. Hầu hết managed provider có sàn $25–200/tháng trước khi billing per-usage kích hoạt. Cho thí nghiệm nhỏ, sàn đó là toàn bộ hóa đơn.

Vector DB rẻ nhất ở mỗi quy mô là gì?

Provider rẻ nhất thay đổi mạnh theo quy mô. Phân tích trên 4 workload RAG phổ biến, dùng embedding float32 1536-dim kiểu OpenAI:

Workload	Vector	Query/ngày	Provider rẻ nhất	Xấp xỉ tháng
RAG nhỏ (proof-of-concept)	100k	5.000	Self-host pgvector	$20 (chỉ VM)
RAG nhỏ (managed)	100k	5.000	Supabase pgvector	$25
RAG trung bình	1M	50.000	Pinecone Serverless	$40–60
RAG lớn	10M	200.000	Turbopuffer	$35–80
Enterprise	100M	1M	Turbopuffer hoặc self-host	$300–800

Turbopuffer là winner bất ngờ ở quy mô lớn vì kiến trúc object-storage đánh đổi latency cold-read (200–500ms so với 30–80ms warm) lấy storage rẻ triệt để. Cho RAG mà query có thể chờ 500ms, đánh đổi đó hầu như luôn đáng.

Pinecone Serverless tính giá thực tế thế nào?

Pinecone Serverless tính ba dòng riêng, sau đó cộng:

Storage: $0.33/GB-tháng dữ liệu đã index
Reads: $8.25/triệu read unit (1 RU ≈ 1 query × 1KB result)
Writes: $4.00/triệu upsert

Ví dụ cho 1M vector 1536 dim với 50k query/ngày và 5k write/ngày:

storage: 1M × 1536 × 4 byte × 1.4 overhead / (1024^3) = 8.0 GB
         8.0 × $0.33 = $2.64/tháng

reads:   50.000 × 30 = 1.5M read / tháng
         1.5 × $8.25 = $12.38/tháng

writes:  5.000 × 30 = 150k write / tháng
         0.15 × $4.00 = $0.60/tháng

tổng:    $15.62/tháng

Đó là mức tối thiểu. Thực tế bạn sẽ có baseline storage cho metadata và tag thêm 10–30%. Vẫn vậy, Pinecone Serverless thực sự rẻ ở quy mô này — bảng giá đầu trang trông đắt cho đến khi bạn tính.

Bẫy: trên ~50M vector, giá read chi phối. Ở 10M read/tháng trên index 50M-vector, bạn trả $82.50 chỉ cho read. Pinecone pod-based (hoặc migrate sang Qdrant/Turbopuffer) trở nên rẻ hơn.

Qdrant có rẻ hơn Pinecone không?

Phụ thuộc hoàn toàn vào tỷ lệ query.

Qdrant Cloud tính theo node-giờ, không theo query. Node Hybrid Cloud khởi đầu (1GB, 1 vCPU) chạy $0.105/giờ = $76/tháng. Bạn được query không giới hạn trong CPU capacity của node (~50–100 QPS cho vector search).

Kịch bản	Pinecone Serverless	Qdrant Cloud
1M vector, 10k query/ngày	$7	$76
1M vector, 100k query/ngày	$40	$76
1M vector, 1M query/ngày	$260	$76 (có thể 2 node = $152)
10M vector, 100k query/ngày	$90	$200

Pinecone thắng workload tỷ lệ query thấp (vì storage rẻ). Qdrant thắng workload tỷ lệ query cao (vì giá per-node dự đoán được chi phối giá per-query qua một ngưỡng nhất định).

Mẹo: nếu bạn đã chạy Postgres, pgvector trên Supabase hoặc Neon rẻ hơn cả Qdrant và Pinecone cho dưới 10M vector ở tỷ lệ query vừa phải. Đánh đổi là recall (HNSW trên Postgres cạnh tranh nhưng thiếu vài tính năng nâng cao), và đơn giản vận hành (một DB quản lý thay vì hai).

Quantization tiết kiệm được bao nhiêu?

Rất nhiều. Precision chuyển trực tiếp thành chi phí storage:

Precision	Byte/giá trị	Storage so với float32	Mất recall
float32	4	100%	baseline
float16	2	50%	~0.5%
int8	1	25%	~5%
binary	0.125	3%	~15% (cần rerank)

Cho 100M vector float32 1536-dim, storage thô là 570GB. Drop xuống int8 còn 142GB — ở $0.33/GB trên Pinecone là $190/tháng so với $47/tháng. Tiết kiệm 4 chữ số mỗi năm.

Binary quantization là option mạnh nhất nhưng cần pass reranking với vector float32 gốc (hoặc với cross-encoder) để có recall production-quality. Tool như namespace của Pinecone, Rerank API của Cohere, reranker Voyage AI làm điều này khả thi.

Khi nào nên dùng Postgres pgvector thay thế?

Decision tree pgvector:

Dùng pgvector nếu bạn có dưới 10M vector, dưới 100 query/giây, và đã chạy Postgres. Đơn giản vận hành thắng mọi tính năng niche.
Dùng vector DB chuyên dụng nếu bạn có trên 10M vector, trên 1.000 query/giây, cần sparse-dense hybrid search, hoặc làm metadata filtering serious với cardinality cao.
Dùng Turbopuffer nếu bạn bị giới hạn chi phí và có thể chịu cold read 200–500ms. Backing object-storage là quyết đoán ở quy mô lớn.
Dùng Weaviate / Qdrant nếu bạn cần module dựng sẵn (CLIP, multi-vector, ACL multi-tenant) mà không tự viết.

Hệ sinh thái pgvector trưởng thành đáng kể trong 2024–2025. HNSW indexing native, IVFFlat cho cold storage, hỗ trợ half-precision, hybrid search dựng sẵn làm nó cạnh tranh cho phần lớn workload RAG thực tế. Benchmark pgvector v0.8 của team Supabase trong 10–20% của vector DB chuyên dụng cho workload dưới-10M-vector.

MongoDB Atlas Vector Search và Redis Vector thì sao?

Cả hai đều là option "chúng tôi đã dùng database này" tốt:

MongoDB Atlas Vector Search bundled vào giá Atlas khởi đầu M10 ($57/tháng). Cho team đã trên MongoDB, tích hợp vận hành và query thực sự giá trị — filtering JSON metadata với vector search trong một query.
Redis Vector include trong giá Redis Cloud. Latency query sub-millisecond là tính năng đầu trang; đúng lựa chọn cho ad serving, recommendation, và use case ultra-low-latency khác.

Không cái nào rẻ nhất ở quy mô cụ thể, nhưng cả hai có thể là lựa chọn đúng khi "hợp nhất vendor" giá trị hơn "tối thiểu chi phí dòng".

Chọn thực sự như thế nào?

Dùng trình tự quyết định này:

Ước tính số vector và tỷ lệ query cho 12 tháng tới, không chỉ ngày một MVP. Vector DB sticky — migration đau.
Ước tính tolerance quantization bằng chạy benchmark recall nhỏ với int8 vs float32 trên reranker thực tế. Hầu hết team thấy mất ≤2% recall chấp nhận được.
Chọn theo tổng chi phí hàng tháng ở mục tiêu 12 tháng, không phải giá đầu trang. Dùng Vector DB Cost Estimator cắm số vào trên cả 9 provider trong một lần.
Lớp vào yếu tố định tính: bạn có cần CLIP dựng sẵn / multi-tenancy / residency EU GDPR / hybrid search không?

Pattern phổ biến 2026 là storage 2 tầng: tier nóng trên Pinecone hoặc Qdrant cho 30 ngày content gần nhất (tỷ lệ query cao), tier lạnh trên Turbopuffer cho archive cũ (query hiếm, storage rẻ bèo). Crossover tiết kiệm 40–60% trên hóa đơn RAG production thực.

Đừng over-optimize ở quy mô MVP. Tổng hóa đơn vector DB cho app AI nhỏ có lẽ dưới $50/tháng — thời gian engineer cạo bớt hóa đơn đó là thời gian không cải thiện chất lượng retrieval, đòn bẩy lớn hơn nhiều cho thành công sản phẩm.