🎯 Definicja

Data Lakehouse to nowoczesna architektura danych, która łączy najlepsze cechy klasycznego Data Lake oraz Data Warehouse. Umożliwia przechowywanie wszystkich typów danych (strukturalnych, półstrukturalnych i niestrukturalnych) w jednym repozytorium oraz zapewnia wsparcie dla analityki biznesowej (BI), uczenia maszynowego (ML) i pracy partycypacyjnej na danych – bez potrzeby ich duplikowania.

Lakehouse zawdzięcza swoją wydajność i spójność formatom tabel warstwowych (m.in. Delta Lake, Apache Hudi, Apache Iceberg), które zapewniają transakcyjność (ACID), time-travel, mutacje i wersjonowanie danych w środowisku data lake.

🔑 Kluczowe punkty

  • Łączy Data Lake i Data Warehouse: zapewnia możliwość analizy hurtownianej na danych surowych.
  • Obsługuje transakcje ACID w systemach plików (np. S3, ADLS, HDFS) dzięki warstwom zarządzania metadanymi i logiem.
  • Wspiera różne typy przetwarzania: batch, streaming, interaktywne zapytania SQL, ML, AI.
  • Otwarte standardy: delta/iceberg/hudi czynią lakehouse rozwiązaniem niezależnym od dostawców i chmurowych vendor lock-in.
  • Zoptymalizowane pod kątem kosztów: eliminuje potrzebę dublowania danych między lake a warehouse.

📚 Szczegółowe wyjaśnienie

Jak działa Data Lakehouse?

Lakehouse opiera się na idei współdzielenia jednego źródła prawdy – dane są przechowywane w formie plików (np. Parquet) w data lake, natomiast warstwa tabel kolumnowych z logiem transakcji umożliwia ich modyfikację jak w relacyjnej bazie danych.

WarstwaOpis
Data Storage LayerSurowe dane (parquet/ORC) przechowywane w object store
Metadata LayerKatalog (np. Hive Metastore), log transakcji, wersjonowanie
Query LayerNarzędzia typu Spark, Dremio, Databricks, Trino, Snowflake
ML & BI LayerApache Spark MLlib, Pandas, TensorFlow, Power BI, Tableau

Popularne formaty lakehouse

FormatTransakcje ACIDMutacje danychTime TravelKompatybilność
Delta LakeSpark, Trino, Dremio, Databricks
Apache IcebergSpark, Flink, Trino, Presto
Apache HudiSpark + Hudi APIs, Hive, Flink

Zalety lakehouse

  • Jedna platforma, wiele zastosowań: konsolidacja danych i przetwarzania – eliminacja silo danych.
  • Koniec ETL-owania do warehouse: analiza możliwa bezpośrednio na danych w lake.
  • Wsparcie AI/ML i SQL: zarówno modele AI, jak i narzędzia BI działają na tej samej warstwie danych.
  • Zgodność z open source: redukcja lock-in do jednego dostawcy.
  • Niższy koszt utrzymania względem podwójnej infrastruktury lake + warehouse.

💡 Przykład zastosowania

Databricks Lakehouse Platform
Firma wykorzystuje Databricks do przetwarzania strumieniowego danych clickstream, uczenia modeli rekomendacyjnych i jednoczesnego udostępniania wyników zespołowi analityków poprzez Power BI. Wszystko to dzieje się w jednym źródle danych, bez potrzeby ekstrakcji do hurtowni. Rewizje danych są wersjonowane (time-travel), a transformacje mają charakter ACID.

📌 Źródła

👽 Brudnopis

  • Lakehouse = Lake + Warehouse + ACID
  • Eliminacja “data duplication”, processing na jednym repozytorium
  • Rolling versions, time travel, schema evolution
  • Delta/Iceberg/Hudi różnią się w wsparciu dla upsert, cache, compaction
  • Narzędzia: Trino, Presto, Spark, Flink, DuckDB, Dremio
  • Przyszłość: Query Fabric, federacja, semantyczne warstwy single-point-interaction