Quelle est la vector database la moins chère pour une petite app RAG ?

Supabase pgvector à 25 $/mois couvre 8GB de storage avec queries illimitées — suffisant pour ~5M petits vecteurs. Turbopuffer est encore moins cher à grande échelle (0,04 $/GB storage) mais facture par query. Sous 100k vecteurs, self-hosted pgvector sur une VM à 20 $ bat toute option managée.

Pinecone ou Qdrant est-il moins cher à 1 million de vecteurs ?

Pour 1M vecteurs à 1536 dimensions avec 50 000 queries/jour, Qdrant Cloud est environ 80 $/mois alors que Pinecone Serverless est environ 40–60 $/mois selon le volume de queries. Sous 10M vecteurs Pinecone gagne ; au-dessus de 10M le pricing par-nœud de Qdrant scale mieux.

Comment je calcule la taille de stockage vectoriel ?

Taille brute = vecteurs × dimensions × octets_par_float. Float32 = 4 octets, float16 = 2, int8 = 1, binary = 0,125. Ajouter 30–50 % d'overhead d'index pour HNSW. Donc 1M vecteurs float32 à 1536 dim = 5,7GB brut + ~2GB index = 8GB total.

La quantization économise-t-elle de l'argent sur les vector databases ?

Oui, significativement. Passer de float32 à int8 coupe le storage de 75 % avec environ 5 % de perte de recall. La quantization binary coupe 97 % mais requiert du reranking. Sur Pinecone Serverless cette économie de storage 75 % se traduit en réduction de facture 60–70 % pour les workloads storage-heavy.

Qu'est-ce qu'une unité de query de vector database ?

Pinecone facture des 'Read Units' où 1 RU équivaut à 1 query retournant approximativement 1KB de payload. La plupart des providers facturent par million de queries directement. Qdrant Cloud facture par heure-nœud avec queries illimitées dans cette capacité.

Devrais-je juste utiliser Postgres pgvector à la place ?

Sous 10M vecteurs et queries sous 100/sec, pgvector sur Postgres managé (Supabase, Neon, Render) est l'option la moins chère et la moins opérationnelle. Au-dessus de 10M vecteurs ou 1000 queries/sec, une vector DB dédiée commence à gagner en latence.

Blog

Prix Vector Database 2026 : Pinecone vs Qdrant vs Supabase

Comparaison pratique des coûts de vector database 2026 — Pinecone, Qdrant, Weaviate, Supabase pgvector, Turbopuffer et plus, avec exemples réels de charges RAG.

Updated 2026-05-118 min read· By AITOT Editorial

Le prix des vector databases en 2026 s'étend de 0 $ (self-hosted Postgres pgvector) à 400 $+ par mois pour le même workload RAG d'1 million de vecteurs, selon le provider, le taux de queries et les choix de quantization. Ce guide décompose neuf providers à travers des workloads RAG réalistes (100k à 100M vecteurs) pour que vous puissiez choisir le bon pour votre échelle. Pour une comparaison en temps réel avec vos chiffres exacts, utilisez notre Estimateur de Coût Vector DB.

La vector DB représente généralement 10–25 % de la facture totale d'infrastructure d'une app IA — assez petite pour ignorer à l'échelle MVP, assez grosse pour dominer les décisions à l'échelle production. La bonne nouvelle est que les mathématiques sont plus prévisibles que le coût des tokens LLM : ça scale linéairement avec les vecteurs, dimensions et queries.

Qu'est-ce qu'une vector database facture exactement ?

Trois postes apparaissent sur chaque facture de vector DB :

Storage — généralement facturé par GB-mois de données indexées. L'overhead d'index (HNSW typiquement 1,3–1,5×) signifie que les octets stockés sont 30–50 % plus gros que les vecteurs bruts.
Reads — facturé par million de queries, ou inclus dans un tarif heure-nœud. La recherche hybride (vecteur + keyword) coûte souvent 2× une query vecteur pure.
Writes — facturé par million d'upserts. Re-indexer un document hot-reload tout le graphe HNSW, donc des updates fréquents peuvent dominer la facture.

Un quatrième poste caché : minimums de plan. La plupart des providers managés ont un plancher de 25–200 $/mois avant que le billing par-utilisation ne s'active. Pour de petits expériments, ce plancher est toute la facture.

Quelle est la vector DB la moins chère à chaque échelle ?

Le provider le moins cher dépend fortement de l'échelle. Voici un breakdown à travers quatre tailles communes de workload RAG, en utilisant des embeddings float32 1536-dim style OpenAI :

Workload	Vecteurs	Queries/jour	Provider le moins cher	Mensuel approx.
Petit RAG (POC)	100k	5 000	Self-hosted pgvector	20 $ (VM seulement)
Petit RAG (managé)	100k	5 000	Supabase pgvector	25 $
Medium RAG	1M	50 000	Pinecone Serverless	40–60 $
Large RAG	10M	200 000	Turbopuffer	35–80 $
Enterprise	100M	1M	Turbopuffer ou self-host	300–800 $

Turbopuffer est le vainqueur surprise à grande échelle parce que son architecture object-storage échange la latence cold-read (200–500ms vs 30–80ms warm) contre un storage radicalement moins cher. Pour RAG où les queries peuvent attendre 500ms, ce trade-off vaut presque toujours le coup.

Comment Pinecone Serverless facture-t-il réellement ?

Pinecone Serverless facture trois postes séparés, puis somme :

Storage : 0,33 $ par GB-mois de données indexées
Reads : 8,25 $ par million de read units (1 RU ≈ 1 query × 1KB result)
Writes : 4,00 $ par million d'upserts

Un exemple travaillé pour 1M vecteurs à 1536 dim avec 50k queries/jour et 5k writes/jour :

storage: 1M × 1536 × 4 octets × 1,4 overhead / (1024^3) = 8,0 GB
         8,0 × 0,33 $ = 2,64 $ par mois

reads:   50 000 × 30 = 1,5M reads / mois
         1,5 × 8,25 $ = 12,38 $ par mois

writes:  5 000 × 30 = 150k writes / mois
         0,15 × 4,00 $ = 0,60 $ par mois

total:   15,62 $ par mois

C'est le minimum dépouillé. En pratique vous aurez un peu de storage baseline pour les métadonnées et tags qui ajoute 10–30 %. Tout de même, Pinecone Serverless est véritablement bon marché à cette échelle — le graphique de tarification titre a l'air cher jusqu'à ce que vous fassiez le calcul.

Le piège : au-dessus de ~50M vecteurs, le pricing reads domine. À 10M reads/mois contre un index 50M-vecteurs, vous paieriez 82,50 $ juste pour les reads. Pinecone pod-based (ou migrer vers Qdrant / Turbopuffer) devient moins cher.

Qdrant est-il moins cher que Pinecone ?

Ça dépend entièrement du taux de queries.

Qdrant Cloud facture par heure-nœud, pas par query. Leur nœud starter Hybrid Cloud (1GB, 1 vCPU) tourne à 0,105 $/heure = 76 $/mois. Vous obtenez des queries illimitées dans la capacité CPU du nœud (~50–100 QPS pour vector search).

Scénario	Pinecone Serverless	Qdrant Cloud
1M vecteurs, 10k queries/jour	7 $	76 $
1M vecteurs, 100k queries/jour	40 $	76 $
1M vecteurs, 1M queries/jour	260 $	76 $ (probablement 2 nœuds = 152 $)
10M vecteurs, 100k queries/jour	90 $	200 $

Pinecone gagne les workloads taux-de-queries faible (parce que le storage est bon marché). Qdrant gagne les workloads taux-queries élevé (parce que le pricing par-nœud prévisible domine le pricing par-query au-delà d'un certain seuil).

Astuce pro : si vous tournez déjà sur Postgres, pgvector sur Supabase ou Neon est encore moins cher que Qdrant ou Pinecone pour moins de 10M vecteurs à un taux de queries modéré. Le trade-off est le recall (HNSW sur Postgres est compétitif mais manque de quelques features avancés), et la simplicité opérationnelle (une DB à gérer au lieu de deux).

Combien la quantization peut-elle économiser ?

Beaucoup. La précision se convertit directement en coût de storage :

Précision	Octets/valeur	Storage vs float32	Perte recall
float32	4	100 %	baseline
float16	2	50 %	~0,5 %
int8	1	25 %	~5 %
binary	0,125	3 %	~15 % (rerank requis)

Pour 100M vecteurs float32 1536-dim, le storage brut est 570GB. Descendez à int8 et c'est 142GB — à 0,33 $/GB sur Pinecone c'est 190 $/mois contre 47 $/mois. Économisez quatre chiffres annuellement.

La quantization binary est l'option la plus agressive mais requiert une passe de reranking avec les vecteurs float32 originaux (ou avec un cross-encoder) pour un recall production-quality. Des outils comme la feature namespace de Pinecone, l'API Rerank de Cohere et le reranker Voyage AI rendent ça pratique.

Quand devriez-vous utiliser Postgres pgvector ?

Arbre de décision pgvector :

Utilisez pgvector si vous avez sous 10M vecteurs, sous 100 queries/sec et tournez déjà sur Postgres. La simplicité opérationnelle bat toute feature de niche.
Utilisez une vector DB dédiée si vous avez plus de 10M vecteurs, plus de 1 000 queries/sec, avez besoin de recherche hybride sparse-dense ou faites du metadata filtering sérieux avec haute cardinalité.
Utilisez Turbopuffer si vous êtes cost-bound et pouvez tolérer des cold reads de 200–500ms. Le backing object-storage est décisif à grande échelle.
Utilisez Weaviate / Qdrant si vous avez besoin de modules intégrés (CLIP, multi-vector, ACL multi-tenant) sans les écrire vous-mêmes.

L'écosystème pgvector a mûri significativement en 2024–2025. Indexation HNSW native, IVFFlat pour cold storage, support half-precision et recherche hybride intégrée le rendent compétitif pour la plupart des workloads RAG du monde réel. Les benchmarks pgvector v0.8 de l'équipe Supabase sont à 10–20 % des vector DBs dédiées pour des workloads sous-10M-vecteurs.

Et MongoDB Atlas Vector Search et Redis Vector ?

Les deux sont de bonnes options "on utilise déjà cette database" :

MongoDB Atlas Vector Search est inclus dans le pricing Atlas à partir de M10 (57 $/mois). Pour les équipes déjà sur MongoDB, l'intégration opérationnelle et de query est véritablement précieuse — filtrage JSON metadata avec recherche vecteur en une query.
Redis Vector est inclus dans le pricing Redis Cloud. La latence de query sub-milliseconde est la feature phare ; c'est le bon choix pour ad serving, recommendation et autres cas d'usage ultra-low-latency.

Aucun n'est le moins cher à une échelle spécifique, mais les deux peuvent être le bon choix quand "consolider les vendors" est plus précieux que "minimiser le coût par-poste".

Comment choisir vraiment ?

Utilisez cette séquence de décision :

Estimez le nombre de vecteurs et le taux de queries pour les 12 prochains mois, pas juste le jour-un du MVP. Les vector DBs sont sticky — la migration est douloureuse.
Estimez la tolérance à la quantization en faisant tourner un petit benchmark de recall avec int8 vs float32 contre votre vrai reranker. La plupart des équipes trouvent ≤2 % de perte de recall acceptable.
Choisissez sur le coût mensuel total à votre cible 12 mois, pas le prix titre. Utilisez notre Estimateur de Coût Vector DB pour brancher les chiffres à travers les 9 providers d'un coup.
Superposez les facteurs qualitatifs : avez-vous besoin de CLIP intégré / multi-tenancy / résidence EU GDPR / recherche hybride ?

Un pattern courant en 2026 est le storage à deux niveaux : tier chaud sur Pinecone ou Qdrant pour les 30 derniers jours de contenu (taux de queries élevé), tier froid sur Turbopuffer pour les archives plus anciennes (queries rares, storage ultra-bon-marché). Le crossover économise 40–60 % sur une vraie facture RAG de production.

Ne sur-optimisez pas à l'échelle MVP. La facture totale de vector DB pour une petite app IA est probablement sous 50 $/mois — du temps d'ingénieur passé à raboter cette facture est du temps d'ingénieur non passé à améliorer la qualité du retrieval, un levier beaucoup plus gros pour le succès produit.