🎯 Definicja
Eta (η) to parametr w algorytmie samplingu Mirostat, który kontroluje “siłę reakcji” (learning rate) algorytmu na odchylenia od założonego poziomu zaskoczenia (Perplexity/Surprisal). Mówiąc prościej: Eta decyduje, jak szybko i agresywnie model koryguje swój styl wypowiedzi, by utrzymać stałą “ciekawość” tekstu.
🔑 Kluczowe punkty
- Mirostat: Algorytm, który próbuje utrzymać stałą jakość/złożoność tekstu (zamiast losowej temperatury).
- Wysokie Eta: Szybka, szarpana korekta. Może prowadzić do niestabilności.
- Niskie Eta: Powolna, płynna adaptacja. Model może długo “wracać na tor” po błędzie.
- Związek z Tau: Tau ustawia cel (jaki poziom chaosu chcemy), Eta ustawia, jak szybko tam dążymy.
📚 Szczegółowe wyjaśnienie
Algorytm Mirostat działa w pętli dla każdego wygenerowanego tokena:
- Mierzy “zaskoczenie” (Surprisal) ostatniego słowa.
- Porównuje z celem (Target Surprisal).
- Oblicza błąd.
- Koryguje parametr
k(maksimum N słów do wyboru) wzorem:k_new = k_old - Eta * error.
💡 Przykład zastosowania
Generujesz opowiadanie. Ustawiasz Tau=5.0 (kreatywne). Jeśli Eta=0.1: Model powoli rozkręca się do kreatywności. Jeśli Eta=0.8: Model natychmiast skacze po tematach, reagując na każde nudniejsze słowo gwałtowną zmianą słownictwa. Zalecane wartości to zazwyczaj 0.1 - 0.2.
📌 Źródła
- “Mirostat: A Neural Text Decoding Algorithm that Directly Controls Perplexity” (Arxiv).
👽 Brudnopis
- Jest to alternatywa dla
TemperatureiTop-P. W Mirostat nie ustawiasz temperatury, algorytm sam nią steruje w locie. - Często używane w
llama.cppi modelach lokalnych (GGUF).