🎯 Definicja
RAG to technika “ściągania na egzaminie” dla AI. Model LLM (student) dostaje pytanie. Zamiast zmyślać z głowy, najpierw zagląda do podręcznika (Twojej bazy dokumentów), znajduje odpowiedni fragment i na jego podstawie pisze odpowiedź.
🔑 Kluczowe punkty
- Aktualność: GPT-4 nie wie, co się stało wczoraj. RAG pozwala mu to wiedzieć (jeśli dodasz wczorajsze newsy do bazy).
- Prywatność: Możesz używać bezpiecznego modelu (np. Llama 3 on-premise) i karmić go tajnymi dokumentami firmy przez RAG.
- Brak Halucynacji: Model opiera się na faktach, które mu dostarczysz.
📚 Szczegółowe wyjaśnienie
Architektura RAG składa się z 3 kroków:
- Retrieval (Wyszukiwanie): Szukasz w bazie wektorowej (np. Pinecone) fragmentów tekstów podobnych do pytania użytkownika.
- Augmentation (Wzbogacanie): Wklejasz te fragmenty do promptu (“Użyj poniższego tekstu, by odpowiedzieć: …”).
- Generation (Generowanie): Model pisze odpowiedź na bazie kontekstu.
💡 Przykład zastosowania
Chatbot HR. Pracownik pyta: “Ile mam dni urlopu?” Tradycyjny LLM: “Nie wiem, kim jesteś.” RAG:
- System wyszukuje w Regulaminie Pracy fragmenty o urlopach.
- Wyszukuje w bazie HR liczbę dni pracownika.
- Prompt do LLM: “Regulamin mówi X. Pracownik ma Y dni. Napisz odpowiedź.”
- LLM: “Zgodnie z regulaminem przysługuje Ci 26 dni, z czego wykorzystałeś 10.”
📌 Źródła
- “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”.
👽 Brudnopis
- RAG to obecnie standard w Enterprise AI. Fine-tuning jest drogi i trudny. RAG jest tani i skuteczny.