🎯 Definicja

Wektorowe bazy danych (ang. vector databases) to specjalistyczne systemy zaprojektowane do przechowywania, indeksowania i wyszukiwania danych w formie reprezentacji wektorowej. Są szczególnie użyteczne w aplikacjach opartych na AI i ML, w tym LLM, systemach rekomendacyjnych, klasyfikatorach i wyszukiwarkach semantycznych, gdzie dane nieustrukturyzowane (np. tekst, obraz, dźwięk) są przekształcane na osadzenia (embeddings) dla celów wyszukiwania po podobieństwie.

🔑 Kluczowe punkty

  • Wektorowe bazy danych umożliwiają szybkie wyszukiwanie najbliższych sąsiadów (Nearest Neighbor Search) dla danych reprezentowanych w przestrzeni wektorowej.
  • Pozwalają przechowywać dane nieustrukturyzowane, takie jak obrazy, tekst czy audio, w postaci wektorów niskowymiarowych lub wysokowymiarowych.
  • Obsługują metadane powiązane z wektorami, co umożliwia filtrowanie i wzbogacanie wyników.
  • Są zoptymalizowane pod kątem skalowalności i bardzo dużych zbiorów danych – od milionów do miliardów wektorów.
  • Stosowane powszechnie w Retrieval-Augmented Generation (RAG) oraz systemach wyszukiwania semantycznego.

📚 Szczegółowe wyjaśnienie

🔍 Wydajne wyszukiwanie podobieństwa

Wektorowe bazy danych umożliwiają szybkie wyszukiwanie najbardziej podobnych wektorów (ang. Approximate Nearest Neighbor – ANN), eliminując ograniczenia tradycyjnych systemów zapytań SQL. Używają przy tym takich metryk jak:

  • Kosinusowa miara podobieństwa
  • Odległość euklidesowa (L2)
  • Odległość Manhattan (L1)

🧭 Indeksowanie i metody wyszukiwania

Wysokowydajne indeksy specyficzne dla przestrzeni wektorowych, takie jak:

  • HNSW (Hierarchical Navigable Small World)
  • IVF (Inverted File Index)
  • PQ (Product Quantization)

Umożliwiają natychmiastowe przeszukiwanie dużych zbiorów danych z wysoką dokładnością.

⚙️ Skalowalność operacyjna

Architektury wektorowych baz danych są zoptymalizowane pod kątem:

  • Obsługi dynamicznego dodawania / usuwania / aktualizacji wektorów
  • Pracy w środowiskach rozproszonych
  • Integracji z chmurą i wsparciem dla API REST/gRPC

🧠 Integracja z modelami ML/LLM

W kontekście LLM umożliwiają:

  • Przechowywanie embedów z modeli językowych (np. OpenAI, SentenceTransformers, Cohere, etc.)
  • Tworzenie systemów RAG: zadanie → embedding → wyszukiwanie → kontekst do LLM
  • Wspieranie chatbotów kontekstowych, Q&A, inteligentnych wyszukiwarek

🗃️ Obsługa wysokowymiarowych reprezentacji

Nowoczesne bazy wspierają wektory setek lub tysięcy wymiarów, standardowych dla AI. Przykład: 768 wymiarów dla BERT, 1536 dla OpenAI ada-002.

🔐 Metadane i dodatkowe funkcje

Wektorowe DB często przechowują dodatkowe informacje w metadanych (np. ID dokumentu, kategoria, data dodania), które mogą służyć jako filtry przy zapytaniach „hybrydowych” (wektor + klasyczne warunki WHERE).

💡 Przykład zastosowania

System e-commerce implementuje semantyczne wyszukiwanie produktów. Opisy produktów oraz zapytania użytkowników są przekształcane w wektory embeddingowe przy użyciu modelu BERT. Wektorowa baza danych (np. Pinecone lub Faiss) umożliwia błyskawiczne wyszukiwanie po semantycznym podobieństwie, nawet jeśli słowa się nie pokrywają. Użytkownik wpisuje „zestaw do jazdy na rowerze w deszczu”, a system zwraca wodoodporną odzież rowerową bez potrzeby dokładnego dopasowania słów kluczowych.

📌 Źródła

[1] Pinecone - What is a vector database?: https://www.pinecone.io/learn/vector-database/
[2] Zilliz | Weaviate vs Milvus vs FAISS – Comparative Overview: https://zilliz.com/blog/vector-database-comparison
[3] OpenAI Cookbook – Using vector database with GPT: https://github.com/openai/openai-cookbook/blob/main/examples/Question_answering_with_embedding.ipynb

👽 Brudnopis

  • baza zoptymalizowana pod przeszukiwanie po podobieństwie wektorowym
  • ANN zamiast „pełnego” przeszukiwania = przyspieszenie
  • używane z LLM do kontekstualizacji promptów (RAG)
  • HNSW najczęściej stosowany algorytm indeksowania w praktyce
  • poziom „zaskoczenia” nie ma zastosowania jak w Mirostat
  • Faiss, Milvus, Weaviate, Pinecone – popularne rozwiązania
  • nadaje się też do obrazów (CLIP), audio, genomiki itd.