🎯 Definicja

Halucynacje w kontekście sztucznej inteligencji (AI), a w szczególności dużych modeli językowych (LLM), to zjawisko, w którym model generuje pozornie poprawne, ale nieprawdziwe lub niesprawdzone informacje. Jest to istotny problem w zastosowaniach, gdzie oczekuje się wysokiej precyzji i faktograficznej poprawności.

🔑 Kluczowe punkty

  • Halucynacje występują, gdy model “zgaduje” poprawną formę odpowiedzi, ale nie odnosi się do prawdziwego źródła wiedzy.
  • Mogą przyjmować subtelną formę — np. tworzenie nieistniejących cytatów, fikcyjnych źródeł, błędnych nazw funkcji.
  • Występują zarówno w prostej generacji tekstu, jak i w kodzie, odpowiedziach Q&A, podsumowaniach, tłumaczeniach.
  • Dotkliwe zwłaszcza tam, gdzie potrzebna jest niezawodność (medycyna, prawo, edukacja, finanse).
  • Halucynacje są konfidentne — model nie zdradza, że może się mylić.

📚 Szczegółowe wyjaśnienie

Rodzaje halucynacji

TypOpis
FaktograficzneWymyślanie danych, nazw, faktów (np. „Polska graniczy z Francją”)
CytatoweFikcyjne przypisy, linki oraz nazwiska autorów
KodoweGenerowanie funkcji, klas lub składni, które nie istnieją
LogiczneBłędy rozumowania krok po kroku (np. naruszenie logiki w chain-of-thought)
Zmyślone podsumowaniaDodawanie wniosków niewynikających z tekstu źródłowego

Przykład:

Prompt:
„Podaj cytat autorstwa Sokratesa o danych.”

Output:
„Jak powiedział Sokrates: ‘Dane są odbiciem naszej duszy cyfrowej.’”

Cytat jest zmyślony — Sokrates nigdy nie wypowiedział się na temat danych.

Przyczyny halucynacji

  • Modele predykcyjneLLM są przewidywaczami tokenów, nie bazami wiedzy.
  • Brak odniesienia do źródeł — model nie ma dostępu do weryfikowalnych danych w czasie generacji.
  • Zbyt ogólny prompt — brak kontekstu lub konkretnych ograniczeń.
  • Niski próg kontrolny — ustawienia samplingów (temperature, top-p) sprzyjają kreatywności, kosztem faktów.
  • Brak anchoringu do źródeł – np. RAG lub zewnętrzne bazy wiedzy.

Sposoby przeciwdziałania

  • Wykorzystanie Retrieval-Augmented Generation (RAG) – model korzysta z aktualnej bazy dokumentów.
  • Dodanie do promptu: “If the answer is unknown, respond with ‘I don’t know’“.
  • Ograniczenie kreatywności modelu – temperature=0, top_p ograniczony.
  • Filtrowanie wyników – systemowe reguły, walidacja post factum.
  • Fine-tuning na rzeczywistych danych + feedback użytkownika (RLHF).
  • Generacja z cytowaniem źródeł (np. Bing Chat, Claude Opus z kontekstem).

💡 Przykład zastosowania

System automatyzujący generowanie raportów finansowych na podstawie danych transakcyjnych często “dopisuje” wygenerowane interpretacje bez pokrycia w danych wejściowych. Po wdrożeniu RAG oraz ograniczeniu temperatury model zaczął generować spójniejsze i bardziej przyziemne odpowiedzi, a dodatkowo zaznacza fragmenty tekstu oryginalnego, na których oparł swoje wnioski.

📌 Źródła

👽 Brudnopis

  • Halucynacja = brak przywiązania do prawdy przy wysokim „zaufaniu” modelu
  • Model zgaduje tokeny, nie fakty
  • Czemu LLM „zmyśla”? Bo celem jest przewidzieć ciąg znaków, nie „być prawdziwym”
  • Szczególnie „toksyczne” w LLM-code (np. Python – nieistniejące biblioteki)
  • Powiązane: hallucinatory confidence, confabulation bias
  • „Źródło?” → challenge dla LLM, które nie bazują na anchorowanych danych