🎯 Definicja
Halucynacje w kontekście sztucznej inteligencji (AI), a w szczególności dużych modeli językowych (LLM), to zjawisko, w którym model generuje pozornie poprawne, ale nieprawdziwe lub niesprawdzone informacje. Jest to istotny problem w zastosowaniach, gdzie oczekuje się wysokiej precyzji i faktograficznej poprawności.
🔑 Kluczowe punkty
- Halucynacje występują, gdy model “zgaduje” poprawną formę odpowiedzi, ale nie odnosi się do prawdziwego źródła wiedzy.
- Mogą przyjmować subtelną formę — np. tworzenie nieistniejących cytatów, fikcyjnych źródeł, błędnych nazw funkcji.
- Występują zarówno w prostej generacji tekstu, jak i w kodzie, odpowiedziach Q&A, podsumowaniach, tłumaczeniach.
- Dotkliwe zwłaszcza tam, gdzie potrzebna jest niezawodność (medycyna, prawo, edukacja, finanse).
- Halucynacje są konfidentne — model nie zdradza, że może się mylić.
📚 Szczegółowe wyjaśnienie
Rodzaje halucynacji
Typ | Opis |
---|---|
Faktograficzne | Wymyślanie danych, nazw, faktów (np. „Polska graniczy z Francją”) |
Cytatowe | Fikcyjne przypisy, linki oraz nazwiska autorów |
Kodowe | Generowanie funkcji, klas lub składni, które nie istnieją |
Logiczne | Błędy rozumowania krok po kroku (np. naruszenie logiki w chain-of-thought) |
Zmyślone podsumowania | Dodawanie wniosków niewynikających z tekstu źródłowego |
Przykład:
Prompt:
„Podaj cytat autorstwa Sokratesa o danych.”
Output:
„Jak powiedział Sokrates: ‘Dane są odbiciem naszej duszy cyfrowej.’”
Cytat jest zmyślony — Sokrates nigdy nie wypowiedział się na temat danych.
Przyczyny halucynacji
- Modele predykcyjne — LLM są przewidywaczami tokenów, nie bazami wiedzy.
- Brak odniesienia do źródeł — model nie ma dostępu do weryfikowalnych danych w czasie generacji.
- Zbyt ogólny prompt — brak kontekstu lub konkretnych ograniczeń.
- Niski próg kontrolny — ustawienia samplingów (temperature, top-p) sprzyjają kreatywności, kosztem faktów.
- Brak anchoringu do źródeł – np. RAG lub zewnętrzne bazy wiedzy.
Sposoby przeciwdziałania
- Wykorzystanie Retrieval-Augmented Generation (RAG) – model korzysta z aktualnej bazy dokumentów.
- Dodanie do promptu: “If the answer is unknown, respond with ‘I don’t know’“.
- Ograniczenie kreatywności modelu –
temperature=0
,top_p
ograniczony. - Filtrowanie wyników – systemowe reguły, walidacja post factum.
- Fine-tuning na rzeczywistych danych + feedback użytkownika (RLHF).
- Generacja z cytowaniem źródeł (np. Bing Chat, Claude Opus z kontekstem).
💡 Przykład zastosowania
System automatyzujący generowanie raportów finansowych na podstawie danych transakcyjnych często “dopisuje” wygenerowane interpretacje bez pokrycia w danych wejściowych. Po wdrożeniu RAG oraz ograniczeniu temperatury model zaczął generować spójniejsze i bardziej przyziemne odpowiedzi, a dodatkowo zaznacza fragmenty tekstu oryginalnego, na których oparł swoje wnioski.
📌 Źródła
- Research: “On the Dangers of Stochastic Parrots” (Bender et al., 2021)
- OpenAI Cookbook: Prompt engineering to mitigate hallucinations
- Anthropic: Reducing Hallucinations in Transformers using Chain-of-Thought
- https://huggingface.co/blog/llm-evaluation
👽 Brudnopis
- Halucynacja = brak przywiązania do prawdy przy wysokim „zaufaniu” modelu
- Model zgaduje tokeny, nie fakty
- Czemu LLM „zmyśla”? Bo celem jest przewidzieć ciąg znaków, nie „być prawdziwym”
- Szczególnie „toksyczne” w LLM-code (np. Python – nieistniejące biblioteki)
- Powiązane: hallucinatory confidence, confabulation bias
- „Źródło?” → challenge dla LLM, które nie bazują na anchorowanych danych