🎯 Definicja

Siatka danych (ang. Data Mesh) to zdecentralizowane podejście do architektury danych, w którym odpowiedzialność za dane jest rozproszona między zespoły domenowe. Zamiast centralnego zespołu zarządzającego całym pipeline’m danych, każda jednostka organizacyjna staje się właścicielem swoich danych jako produktu — odpowiedzialna za ich jakość, dostępność i udostępnianie w organizacji.

🔑 Kluczowe punkty

  • Siatka danych zmienia paradygmat: od centralizacji danych (Data Lake / DWH) do federacji domen danych (Data as a Product).
  • Bazuje na czterech filarach:
    1. Domenowość (domain ownership)
    2. Dane jako produkt (data as a product)
    3. Platforma danych jako samoobsługa (self-serve platform)
    4. Zarządzanie międzydomenowe (federated governance)
  • Promuje większą skalowalność i elastyczność — dane są tworzone i zarządzane blisko źródła biznesowego.
  • Kluczowa rola data product ownerów, interfejsów kontraktowych i katalogów danych.
  • Popularna w organizacjach o strukturze wielodomenowej – np. e-commerce, enterprise, fintech.

📚 Szczegółowe wyjaśnienie

Centralizacja vs Data Mesh

CechaData Lake / DWHSiatka danych (Data Mesh)
OdpowiedzialnośćCentralny zespół danychZespoły domenowe
ArchitekturaScentralizowanaRozproszona
SkalowalnośćOgraniczona przez zespół centralnyNaturalnie rośnie z organizacją
Nowe domeny/wdrożeniaWymagają pracy zespołu centralnegoZespoły dodają własne produkty danych samodzielnie
Cykle czasu dostarczaniaDługi, zależne od priorytetów DWHKrótkie, zależne od zespołu domenowego

Przykład domen i produktów danych (organization-centric)

DomenaProdukt danych
MarketingKampanie, leady, segmentacja
SprzedażZamówienia, KPI sprzedażowe
FinanseAnalizy kosztów, przychody, faktury
Obsługa klientaTickety, historie kontaktu
Aplikacja mobilnaAktywność użytkownika, logi wydarzeń

Komponenty siatki danych

  • Data Products: publikowane przez zespoły, z określonym kontraktem (schemat, SLA, testy).
  • Data Platform (self-serve): narzędzia udostępniające CI/CD, orkiestrację, katalogi, monitorowanie jakości (np. dbt, Airbyte, Dagster, Great Expectations, DataHub).
  • Federated Governance: definiuje wspólne minimum: nazewnictwo, polityki dostępu, bezpieczeństwo, lineage.

💡 Przykład zastosowania

Międzynarodowa firma kurierska wdrożyła architekturę Data Mesh, przypisując odpowiedzialność za dane do zespołów domenowych: logistyka, terminale, finanse. Zamiast wysyłać surowe dane do centralnego DWH, każda domena publikuje gotowy produkt danych w formacie Iceberg na S3, który następnie jest rejestrowany w katalogu danych i wykorzystywany przez zespoły BI oraz ML do dalszych analiz.

📌 Źródła

👽 Brudnopis

  • Data Mesh = dane jako API, produkt, ownership
  • Działa w dużych, złożonych firmach – mikroserwisy dla danych
  • Platforma: Airflow, dbt, DataHub = mesh-ready stack
  • Wyzwania: standaryzacja, katalogi, kontrakty danych
  • IDEAL: dbt + Iceberg + Kafka + DataHub + access layer
  • CI/CD dla produktów danych = testy + deployment + Wersje