🎯 Definicja
Ten dokument to mapa mentalna kluczowych pojęć w nowoczesnej Inżynierii Danych. Dzieli świat danych na obszary: Architektury, Przetwarzania, Narzędzi i Metodologii. Służy jako spis treści dla bardziej szczegółowych notatek.
🔑 Kluczowe Obszary
- Storage: Data Warehouse (uporządkowane), Data Lake (surowe), Data Lakehouse (hybryda).
- Processing: ETL vs ELT, Batch (wsadowe) vs Streaming (ciągłe).
- Governance: Data Catalog, Data Quality, Lineage.
- DevOps: CD, IaC (Infrastructure as Code), Konteneryzacja (Docker, Kubernetes).
📚 Szczegółowe wyjaśnienie
Trendy, które zmieniają branżę (2024+):
- Deklaratywność: Zamiast pisać kod “jak ładować”, piszemy “co chcemy załadować” (dbt, SQLMesh).
- Data Contracts: Traktowanie danych jako produktu z gwarancją jakości (SLA).
- FinOps: Optymalizacja kosztów chmury (bo Snowflake/BigQuery potrafią być drogie).
💡 Przykład zastosowania
Inżynier Danych projektując nowy system musi wybrać klocki z tej mapy: “Zbudujemy Lakehouse (Architektura) na S3 (Storage) używając formatu Apache Iceberg. Dane będziemy przetwarzać za pomocą Spark (Processing) w trybie Batch, a całość orkiestrować Airflow. Jakość zapewni nam Great Expectations (Governance).”
📌 Źródła
- “Fundamentals of Data Engineering”.
👽 Brudnopis
- Ta dziedzina zmienia się bardzo szybko. To, co było standardem 5 lat temu (Hadoop), dziś jest legacy. To co jest modne dziś (DuckDB), za 5 lat może być standardem.