🎯 Definicja

Gradient to wektor matematyczny, który pokazuje kierunek najszybszego wzrostu funkcji. W uczeniu maszynowym używamy go “na odwrót” (minus gradient), aby znaleźć kierunek najszybszego spadku błędu (Loss Function). To kompas, który mówi modelowi: “Zmień wagi w tę stronę, żeby wynik był lepszy”.

🔑 Kluczowe punkty

Gradient Descent: Algorytm “schodzenia z góry we mgle”. Patrzysz pod nogi (liczysz gradient) i robisz krok w dół.
Backpropagation: Metoda liczenia gradientu dla każdej wagi w sieci neuronowej (od końca do początku).
Learning Rate: Wielkość kroku. Za duży = przeskoczysz dołek. Za mały = będziesz schodzić wieki.

📚 Szczegółowe wyjaśnienie

Dla funkcji jednej zmiennej gradient to po prostu pochodna. Dla wielu zmiennych (a sieci mają miliony parametrów), gradient to wektor pochodnych cząstkowych. Jeśli Gradient = 0, to znaczy, że jesteśmy na płaskim (szczyt, dno lub siodło). Szukamy globalnego dna (Global Minimum błędu).

💡 Przykład zastosowania

Model przewiduje cenę mieszkania i myli się o 50 tys. zł. Obliczamy gradient funkcji błędu. Gradient mówi: “Jeśli zwiększysz wagę ‘powierzchnia’ o 0.01 i zmniejszysz wagę ‘wiek budynku’ o 0.005, błąd spadnie”. Model aktualizuje wagi (Optimizer Step). W kolejnej rundzie błąd wynosi już tylko 48 tys. zł. Powtarzamy milion razy.

📌 Źródła

“Calculus for Machine Learning”.

👽 Brudnopis

Problemy z gradientem:
- Vanishing Gradient: Gradient bliski zera, sieć przestaje się uczyć (typowe dla głębokich sieci z Sigmoidem).
- Exploding Gradient: Gradient rośnie do nieskończoności, wagi wybuchają (NaN).

Quartz 4

Explorer

Gradient (Kierunek Zmiany)