🎯 Definicja

Embedding to proces zamiany tekstu (lub obrazu, dźwięku) na długi ciąg liczb (wektor), np. [0.12, -0.98, 0.55, ...]. Te liczby reprezentują znaczenie semantyczne. Dzięki temu komputer “rozumie”, że słowu “pies” jest bliżej matematycznie do słowa “zwierzę” niż do słowa “samochód”.

🔑 Kluczowe punkty

  • Matematyka znaczenia: Podobne pojęcia mają podobne wektory (leżą blisko siebie w przestrzeni wielowymiarowej).
  • Zastosowanie: Wyszukiwarki (Semantic Search), Systemy rekomendacji, RAG.
  • Modele: OpenAI text-embedding-3, BERT, Word2Vec.

📚 Szczegółowe wyjaśnienie

W klasycznym wyszukiwaniu (Słowa kluczowe), szukając “auto”, nie znajdziesz dokumentu ze słowem “samochód” (bo literki są inne). W Embeddingach: Wektor słowa “auto” i wektor słowa “samochód” są prawie identyczne (wysokie Cosine Similarity). System znajdzie dokument, mimo braku wspólnych słów.

💡 Przykład zastosowania

Chatbot firmowy. Użytkownik pyta: “Jak wziąć wolne?“. Baza wiedzy ma dokument: “Procedura urlopowa”. Embedding pytania i embedding tytułu dokumentu są bliskie. System wyciąga ten dokument i przekazuje do LLM, aby udzielił odpowiedzi.

📌 Źródła

  • “Efficient Estimation of Word Representations in Vector Space” (Word2Vec paper).
  • OpenAI Embeddings API Docs.

👽 Brudnopis

  • Popularne bazy wektorowe do trzymania embeddingów: Pinecone, Weaviate, Qdrant, pgvector.
  • Wymiarowość (np. 1536 dla OpenAI) określa, jak wiele niuansów znaczeniowych potrafi zakodować model.