🎯 Definicja

Potoki przetwarzania danych (ang. data pipelines) to zorganizowane zbiory kroków przetwarzania, które automatyzują przepływ danych — od momentu ich pozyskania (sources), poprzez transformację, aż po zapis w docelowym systemie (sink), takim jak hurtownia danych, system raportowania lub magazyn danych analitycznych.

🔑 Kluczowe punkty

Potoki automatyzują procesy ekstrakcji (E), transformacji (T) i ładownia danych (L) – klasyczne ETL lub nowoczesne ELT.
Składają się z wielu etapów (steps/stages), które mogą działać synchronicznie, asynchronicznie lub strumieniowo.
Mogą działać wsadowo (batch) lub w czasie rzeczywistym (streaming).
Zarządzane za pomocą orkiestratorów: Airflow, Dagster, Prefect.
Stanowią trzon każdej nowoczesnej platformy danych i umożliwiają zasilanie downstream: BI, ML, dashboardów, raportów.

📚 Szczegółowe wyjaśnienie

Typowa struktura potoku danych

Źródło danych (data source):
Bazy danych OLTP, API, pliki CSV, IoT, media społecznościowe.
Ingestion (pobieranie):
Narzędzia typu Airbyte, Fivetran, Kafka zbierają dane w surowej postaci.
Transformacja (data transformation):
Przetwarzanie, oczyszczanie, standaryzacja, łączenie źródeł (np. przez dbt, Spark, SQL).
Ładowanie (loading/sink):
Zapis do systemów typu Snowflake, BigQuery, Redshift, S3, Delta Lake, Elasticsearch.
Monitorowanie (observability):
Walidacja jakości, alerty (testy: null check, expect range), logowanie run’ów.

Rodzaje potoków

Typ	Opis
ETL	Transformacja odbywa się przed załadunkiem do celu (transformacja „w locie”)
ELT	Ładowanie następuje przed transformacją, najczęściej w hurtowni danych
Streaming	Obsługa danych w czasie rzeczywistym (np. Kafka → Flink/Spark)
Batch	Przetwarzanie cykliczne, dużymi porcjami

Kluczowe cechy dobrze zaprojektowanego potoku

Idempotentność – ponowne wykonanie nie zmienia systemu.
Retry / Failure isolation – odporność na błędy danego kroku.
Logowanie i audyt – obserwowalność każdego etapu runu.
Skalowalność – pozioma i automatyczna.
Modularność – możliwość ponownego użycia komponentów.

💡 Przykład zastosowania

Zespół danych w firmie e-commerce tworzy potok danych, który codziennie:

Pobiera dane z PostgreSQL i API reklamowego (Airbyte).
Ładuje je do hurtowni BigQuery.
Transformuje dane zamówień i sesji użytkownika do modelu wymiarowego (dbt).
Udostępnia dane analitykom w Lookerze i automatyzuje alerty w przypadku błędnych danych.

📌 Źródła

👽 Brudnopis

data pipelines = plumbing dla informacji
różnica: ETL → transformacja wcześniej, ELT → na poziomie hurtowni
potoki są nadrzędne nad taskami / dagami – model systemowy
ważne dla ML (data ingestion + features + retraining) i analityki
orchestration ≠ ingestion ≠ transformation – rozdzielone komponenty
narzędzia: Airbyte, dbt, Spark, Airflow, Dagster, Fivetran, Prefect
testy danych: Great Expectations, elementary, soda
context-aware pipelines → dynamic DAG (np. per client, per date)

Quartz 4

Explorer

Potoki przetwarzania danych