🎯 Definicja

ReLU to najpopularniejsza funkcja aktywacji w sieciach neuronowych. Jest banalnie prosta: “Jeśli liczba jest ujemna, zamień ją na zero. Jeśli dodatnia, zostaw bez zmian”. Wzór: f(x) = max(0, x).

🔑 Kluczowe punkty

  • Szybkość: Bardzo łatwa do policzenia dla komputera (w przeciwieństwie do Sigmoid czy Tanh, które wymagają potęgowania).
  • Nieliniowość: Mimo prostoty, pozwala sieciom uczyć się skomplikowanych wzorców.
  • Standard: Domyślny wybór w większości nowoczesnych sieci (CNN, Transformery).

📚 Szczegółowe wyjaśnienie

Dlaczego “zerowanie ujemnych” jest takie ważne? Wprowadza nieliniowość. Bez tego sieć neuronowa byłaby tylko wielką macierzą mnożenia (regresją liniową), niezdolną do rozpoznawania twarzy czy rozumienia języka. Problem ReLU: Dying ReLU. Jeśli neuron “utknie” na ujemnych wartościach, na zawsze pozostanie zerem i przestanie się uczyć. (Rozwiązanie: Leaky ReLU).

💡 Przykład zastosowania

W sieci rozpoznającej obrazy (CNN), ReLU jest stosowane po każdym splocie (Convolution). Pozwala “odciąć szum” (ujemne wartości pikseli po filtracji) i przepuścić tylko silne sygnały (krawędzie, kształty).

📌 Źródła

  • “Deep Sparse Rectifier Neural Networks” (Glorot et al.).

👽 Brudnopis

  • Jeśli nie wiesz, jakiej funkcji aktywacji użyć w warstwach ukrytych, użyj ReLU. W warstwie wyjściowej użyj Softmax (klasyfikacja) lub Linear (regresja).