Prix Vector Database 2026 : Pinecone vs Qdrant vs Supabase
Comparaison pratique des coûts de vector database 2026 — Pinecone, Qdrant, Weaviate, Supabase pgvector, Turbopuffer et plus, avec exemples réels de charges RAG.
Le prix des vector databases en 2026 s'étend de 0 $ (self-hosted Postgres pgvector) à 400 $+ par mois pour le même workload RAG d'1 million de vecteurs, selon le provider, le taux de queries et les choix de quantization. Ce guide décompose neuf providers à travers des workloads RAG réalistes (100k à 100M vecteurs) pour que vous puissiez choisir le bon pour votre échelle. Pour une comparaison en temps réel avec vos chiffres exacts, utilisez notre Estimateur de Coût Vector DB.
La vector DB représente généralement 10–25 % de la facture totale d'infrastructure d'une app IA — assez petite pour ignorer à l'échelle MVP, assez grosse pour dominer les décisions à l'échelle production. La bonne nouvelle est que les mathématiques sont plus prévisibles que le coût des tokens LLM : ça scale linéairement avec les vecteurs, dimensions et queries.
Qu'est-ce qu'une vector database facture exactement ?
Trois postes apparaissent sur chaque facture de vector DB :
- Storage — généralement facturé par GB-mois de données indexées. L'overhead d'index (HNSW typiquement 1,3–1,5×) signifie que les octets stockés sont 30–50 % plus gros que les vecteurs bruts.
- Reads — facturé par million de queries, ou inclus dans un tarif heure-nœud. La recherche hybride (vecteur + keyword) coûte souvent 2× une query vecteur pure.
- Writes — facturé par million d'upserts. Re-indexer un document hot-reload tout le graphe HNSW, donc des updates fréquents peuvent dominer la facture.
Un quatrième poste caché : minimums de plan. La plupart des providers managés ont un plancher de 25–200 $/mois avant que le billing par-utilisation ne s'active. Pour de petits expériments, ce plancher est toute la facture.
Quelle est la vector DB la moins chère à chaque échelle ?
Le provider le moins cher dépend fortement de l'échelle. Voici un breakdown à travers quatre tailles communes de workload RAG, en utilisant des embeddings float32 1536-dim style OpenAI :
| Workload | Vecteurs | Queries/jour | Provider le moins cher | Mensuel approx. |
|---|---|---|---|---|
| Petit RAG (POC) | 100k | 5 000 | Self-hosted pgvector | 20 $ (VM seulement) |
| Petit RAG (managé) | 100k | 5 000 | Supabase pgvector | 25 $ |
| Medium RAG | 1M | 50 000 | Pinecone Serverless | 40–60 $ |
| Large RAG | 10M | 200 000 | Turbopuffer | 35–80 $ |
| Enterprise | 100M | 1M | Turbopuffer ou self-host | 300–800 $ |
Turbopuffer est le vainqueur surprise à grande échelle parce que son architecture object-storage échange la latence cold-read (200–500ms vs 30–80ms warm) contre un storage radicalement moins cher. Pour RAG où les queries peuvent attendre 500ms, ce trade-off vaut presque toujours le coup.
Comment Pinecone Serverless facture-t-il réellement ?
Pinecone Serverless facture trois postes séparés, puis somme :
- Storage : 0,33 $ par GB-mois de données indexées
- Reads : 8,25 $ par million de read units (1 RU ≈ 1 query × 1KB result)
- Writes : 4,00 $ par million d'upserts
Un exemple travaillé pour 1M vecteurs à 1536 dim avec 50k queries/jour et 5k writes/jour :
storage: 1M × 1536 × 4 octets × 1,4 overhead / (1024^3) = 8,0 GB
8,0 × 0,33 $ = 2,64 $ par mois
reads: 50 000 × 30 = 1,5M reads / mois
1,5 × 8,25 $ = 12,38 $ par mois
writes: 5 000 × 30 = 150k writes / mois
0,15 × 4,00 $ = 0,60 $ par mois
total: 15,62 $ par mois
C'est le minimum dépouillé. En pratique vous aurez un peu de storage baseline pour les métadonnées et tags qui ajoute 10–30 %. Tout de même, Pinecone Serverless est véritablement bon marché à cette échelle — le graphique de tarification titre a l'air cher jusqu'à ce que vous fassiez le calcul.
Le piège : au-dessus de ~50M vecteurs, le pricing reads domine. À 10M reads/mois contre un index 50M-vecteurs, vous paieriez 82,50 $ juste pour les reads. Pinecone pod-based (ou migrer vers Qdrant / Turbopuffer) devient moins cher.
Qdrant est-il moins cher que Pinecone ?
Ça dépend entièrement du taux de queries.
Qdrant Cloud facture par heure-nœud, pas par query. Leur nœud starter Hybrid Cloud (1GB, 1 vCPU) tourne à 0,105 $/heure = 76 $/mois. Vous obtenez des queries illimitées dans la capacité CPU du nœud (~50–100 QPS pour vector search).
| Scénario | Pinecone Serverless | Qdrant Cloud |
|---|---|---|
| 1M vecteurs, 10k queries/jour | 7 $ | 76 $ |
| 1M vecteurs, 100k queries/jour | 40 $ | 76 $ |
| 1M vecteurs, 1M queries/jour | 260 $ | 76 $ (probablement 2 nœuds = 152 $) |
| 10M vecteurs, 100k queries/jour | 90 $ | 200 $ |
Pinecone gagne les workloads taux-de-queries faible (parce que le storage est bon marché). Qdrant gagne les workloads taux-queries élevé (parce que le pricing par-nœud prévisible domine le pricing par-query au-delà d'un certain seuil).
Astuce pro : si vous tournez déjà sur Postgres, pgvector sur Supabase ou Neon est encore moins cher que Qdrant ou Pinecone pour moins de 10M vecteurs à un taux de queries modéré. Le trade-off est le recall (HNSW sur Postgres est compétitif mais manque de quelques features avancés), et la simplicité opérationnelle (une DB à gérer au lieu de deux).
Combien la quantization peut-elle économiser ?
Beaucoup. La précision se convertit directement en coût de storage :
| Précision | Octets/valeur | Storage vs float32 | Perte recall |
|---|---|---|---|
| float32 | 4 | 100 % | baseline |
| float16 | 2 | 50 % | ~0,5 % |
| int8 | 1 | 25 % | ~5 % |
| binary | 0,125 | 3 % | ~15 % (rerank requis) |
Pour 100M vecteurs float32 1536-dim, le storage brut est 570GB. Descendez à int8 et c'est 142GB — à 0,33 $/GB sur Pinecone c'est 190 $/mois contre 47 $/mois. Économisez quatre chiffres annuellement.
La quantization binary est l'option la plus agressive mais requiert une passe de reranking avec les vecteurs float32 originaux (ou avec un cross-encoder) pour un recall production-quality. Des outils comme la feature namespace de Pinecone, l'API Rerank de Cohere et le reranker Voyage AI rendent ça pratique.
Quand devriez-vous utiliser Postgres pgvector ?
Arbre de décision pgvector :
- Utilisez pgvector si vous avez sous 10M vecteurs, sous 100 queries/sec et tournez déjà sur Postgres. La simplicité opérationnelle bat toute feature de niche.
- Utilisez une vector DB dédiée si vous avez plus de 10M vecteurs, plus de 1 000 queries/sec, avez besoin de recherche hybride sparse-dense ou faites du metadata filtering sérieux avec haute cardinalité.
- Utilisez Turbopuffer si vous êtes cost-bound et pouvez tolérer des cold reads de 200–500ms. Le backing object-storage est décisif à grande échelle.
- Utilisez Weaviate / Qdrant si vous avez besoin de modules intégrés (CLIP, multi-vector, ACL multi-tenant) sans les écrire vous-mêmes.
L'écosystème pgvector a mûri significativement en 2024–2025. Indexation HNSW native, IVFFlat pour cold storage, support half-precision et recherche hybride intégrée le rendent compétitif pour la plupart des workloads RAG du monde réel. Les benchmarks pgvector v0.8 de l'équipe Supabase sont à 10–20 % des vector DBs dédiées pour des workloads sous-10M-vecteurs.
Et MongoDB Atlas Vector Search et Redis Vector ?
Les deux sont de bonnes options "on utilise déjà cette database" :
- MongoDB Atlas Vector Search est inclus dans le pricing Atlas à partir de M10 (57 $/mois). Pour les équipes déjà sur MongoDB, l'intégration opérationnelle et de query est véritablement précieuse — filtrage JSON metadata avec recherche vecteur en une query.
- Redis Vector est inclus dans le pricing Redis Cloud. La latence de query sub-milliseconde est la feature phare ; c'est le bon choix pour ad serving, recommendation et autres cas d'usage ultra-low-latency.
Aucun n'est le moins cher à une échelle spécifique, mais les deux peuvent être le bon choix quand "consolider les vendors" est plus précieux que "minimiser le coût par-poste".
Comment choisir vraiment ?
Utilisez cette séquence de décision :
- Estimez le nombre de vecteurs et le taux de queries pour les 12 prochains mois, pas juste le jour-un du MVP. Les vector DBs sont sticky — la migration est douloureuse.
- Estimez la tolérance à la quantization en faisant tourner un petit benchmark de recall avec int8 vs float32 contre votre vrai reranker. La plupart des équipes trouvent ≤2 % de perte de recall acceptable.
- Choisissez sur le coût mensuel total à votre cible 12 mois, pas le prix titre. Utilisez notre Estimateur de Coût Vector DB pour brancher les chiffres à travers les 9 providers d'un coup.
- Superposez les facteurs qualitatifs : avez-vous besoin de CLIP intégré / multi-tenancy / résidence EU GDPR / recherche hybride ?
Un pattern courant en 2026 est le storage à deux niveaux : tier chaud sur Pinecone ou Qdrant pour les 30 derniers jours de contenu (taux de queries élevé), tier froid sur Turbopuffer pour les archives plus anciennes (queries rares, storage ultra-bon-marché). Le crossover économise 40–60 % sur une vraie facture RAG de production.
Ne sur-optimisez pas à l'échelle MVP. La facture totale de vector DB pour une petite app IA est probablement sous 50 $/mois — du temps d'ingénieur passé à raboter cette facture est du temps d'ingénieur non passé à améliorer la qualité du retrieval, un levier beaucoup plus gros pour le succès produit.