🎯 Definicja
Top-P (Nucleus Sampling) to bardziej inteligentna wersja Top K. Zamiast brać “Sztywne 50 słów” (K), bierze tyle słów, by ich suma prawdopodobieństwa przekroczyła próg P (np. 90%).
🔑 Kluczowe punkty
- Dynamiczność: Jeśli model jest pewny (“Stolicą Polski jest…”), to jedno słowo “Warszawa” ma 99%. Top-P weźmie tylko to jedno.
- Jeśli model nie jest pewny (“Ulubiony kolor to…”), to rozkład jest płaski. Top-P weźmie 100 słów, które razem dają 90%.
- Daje lepszy balans między spójnością a kreatywnością niż Top-K.
📚 Szczegółowe wyjaśnienie
Parametr P (zwykle 0.9): Model sumuje prawdopodobieństwa od góry, aż dojdzie do 0.9.
- “Tak” (0.5) → Suma=0.5
- “Nie” (0.3) → Suma=0.8
- “Może” (0.15) → Suma=0.95 (STOP). Reszta słów jest odcinana. Losowanie następuje tylko między tymi trzema.
💡 Przykład zastosowania
Większość nowoczesnych LLM (Claude, GPT) domyślnie używa Top-P=1.0 (brak odcięcia) lub Top-P=0.9.
Zaleca się nie zmieniać Top-K i Top-P na raz. Zmień jedno albo drugie.
📌 Źródła
- The Curious Case of Neural Text Degeneration (Holtzman et al.).
👽 Brudnopis
- Top-P jest bardziej “adaptacyjne”. Kiedy model wie co mówić, Top-P go nie ogranicza. Kiedy model nie wie, Top-P pozwala mu szukać szeroko.