🎯 Definicja
Data Lakehouse to nowoczesna architektura danych łącząca elastyczność Data Lake z zarządzaniem i wydajnością Data Warehouse. Dzięki wykorzystaniu otwartych formatów tabel (takich jak Delta Lake, Iceberg, Hudi), umożliwia obsługę transakcji ACID, Schema Enforcement i Time Travel bezpośrednio na tanim magazynie obiektowym (S3/ADLS), bez konieczności kopiowania danych do oddzielnej hurtowni.
🔑 Kluczowe punkty
- Best of both worlds: Tani storage (jak Lake) + Transakcyjność i SQL (jak Warehouse).
- Brak duplikacji: Dane leżą w jednym miejscu. BI i AI korzystają z tych samych plików.
- Otwarte formaty: Dane nie są zamknięte w “pudle” vendora (jak w Oracle czy Snowflake’u starszej generacji), ale są zwykłymi plikami Parquet z warstwą metadanych.
📚 Szczegółowe wyjaśnienie
Tradycyjnie miałeś Lake (bałagan, pliki) i Warehouse (porządek, SQL). Lakehouse dodaje warstwę “Table Format” na pliki w Lake’u. Dzięki temu pliki Parquet na S3 zachowują się jak tabele SQL:
- Możesz robić
UPDATEiDELETE(dzięki Delta Lake log). - Masz wersjonowanie historii (możesz zapytać o dane “sprzed tygodnia”).
- Masz dużą wydajność (indexy, skipping data). Silniki takie jak Databricks SQL, Trino czy Starburst pozwalają odpytywać te dane z prędkością bliską hurtowniom.
💡 Przykład zastosowania
Databricks Platform. Inżynierowie wrzucają surowe dane do tabel Delta (“Bronze”). Czyszczą je do “Silver”. Agregują do “Gold”. Wszystko to dzieje się na S3. Analityk otwiera Power BI i łączy się do tych samych tabel “Gold” przez SQL Endpoint. Data Scientist bierze te same tabele “Silver” do trenowania modelu w Pythonie. Nikt nie kopiuje danych do osobnego SQL Servera.
📌 Źródła
- “Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics” - Databricks Paper.
👽 Brudnopis
- Kluczowe technologie: Delta Lake, Apache Iceberg, Apache Hudi.
- Lakehouse jest odpowiedzią na problemy Data Swamp i kosztów chmury.