🎯 Definicja
LSTM to rodzaj sieci neuronowej stworzony do analizy sekwencji (czasu, tekstu, dźwięku). W odróżnieniu od zwykłych sieci, LSTM posiada “pamięć”, dzięki czemu rozumie, że to, co dzieje się teraz, zależy od tego, co działo się 100 kroków temu.
🔑 Kluczowe punkty
- Problem: Zwykłe sieci RNN zapominały początek zdania, zanim dotarły do końca (“Vanishing Gradient Problem”).
- Rozwiązanie: LSTM ma mechanizm “bramek” (Gates), które decydują, co zapamiętać, a co zapomnieć.
- Zastosowanie: Tłumaczenie języków, przewidywanie cen akcji, rozpoznawanie mowy.
📚 Szczegółowe wyjaśnienie
Architektura LSTM składa się z komórek, które mają 3 bramki:
- Forget Gate: “Czy ta stara informacja jest jeszcze ważna? Jeśli nie, usuń ją”.
- Input Gate: “Czy ta nowa informacja jest ważna? Jeśli tak, zapisz ją”.
- Output Gate: “Co mam teraz powiedzieć na podstawie mojej pamięci?“.
Dziś LSTM są wypierane przez architekturę Transformer (ChatGPT), która radzi sobie lepiej z długimi tekstami dzięki mechanizmowi Atencji (Attention), ale LSTM nadal jest świetne w prostszych szeregach czasowych (Time Series).
💡 Przykład zastosowania
Prognoza pogody. LSTM analizuje temperaturę z ostatnich 30 dni. Pamięta, że 2 tygodnie temu było nagłe ochłodzenie (wzorzec sezonowy) i na tej podstawie przewiduje temperaturę na jutro, ignorując jednodniowy skok temperatury wczoraj (szum).
📌 Źródła
- “Understanding LSTM Networks” (Colah’s Blog).
👽 Brudnopis
- LSTM powstało w 1997 roku! To “dziadek” nowoczesnego AI, który przetrwał próbę czasu.