🎯 Definicja

Data Catalog (Katalog Danych) to centralna, zorganizowana przestrzeń służąca do przechowywania, przeglądania i zarządzania metadanymi dotyczącymi zasobów danych w organizacji — takich jak tabele, kolumny, źródła danych, lineage i zależności semantyczne. W Ataccama ONE katalog danych jest częścią szerszego komponentu o nazwie Knowledge Catalog i umożliwia organizacjom efektywne odnajdywanie, opisywanie i analizowanie danych.

🔑 Kluczowe punkty

  • Centralna rejestracja zasobów danych: tabele, bazy, raporty, modele, zbiory danych.
  • Metadane techniczne i biznesowe: Data Catalog przechowuje zarówno informacje systemowe (schemas, types), jak i opisy użytkownika (definicje, właściciele, tagi, klasyfikacje).
  • Integracje z wieloma źródłami danych: źródła fizyczne (Snowflake, PostgreSQL, S3 itd.) i wirtualne (API).
  • Odkrywanie i profilowanie danych: możliwość analizowania jakości danych oraz ich zawartości bez potrzeby wykonywania zapytań.
  • Wsparcie dla lineages i stewardingu: śledzenie pochodzenia danych oraz przypisanie właścicieli i odpowiedzialności.

📚 Szczegółowe wyjaśnienie

Czym jest Data Catalog w Ataccama?

W Ataccama, katalog danych oferuje:

  • pełne zarządzanie metadanymi w ramach jednego interfejsu,
  • wizualizację dziedziczenia danych (lineage),
  • przypisanie właścicieli danych (stewardów),
  • automatyczne podpowiedzi terminów słownikowych (term suggestions),
  • integrację z narzędziami klasyfikacyjnymi (data classification, scoring).

Elementami składowymi katalogu danych są:

  • 📦 Catalog Items — logiczne jednostki danych, np. tabela, pole, pipeline.
  • 🌐 Sources — fizyczne źródła danych (bazy danych, Lake, pliki).
  • 🧠 Term Suggestions — podpowiedzi słownikowe dla metadanych, np. mapowanie kolumn na terminy słownika biznesowego.
  • 🔗 Lineage Import — integracja i import widoku pochodzenia danych (lineage) z narzędzi zewnętrznych lub pipelines.

Główne funkcje

  • Konfigurowanie połączeń do różnych źródeł danych (JDBC/API).
  • Automatyczne i ręczne wzbogacanie metadanych (np. tagi, właściciele, opisy).
  • Przeglądanie danych i ich profili (rozrzut wartości, null, typy).
  • Wyszukiwanie danych przy pomocy języka AQL i filtrów.
  • Obsługa stewardingu i klasyfikacji danych (np. PII, dane wrażliwe).
  • Integracja z data quality, monitoringiem i warstwą semantyczną.

💡 Przykład zastosowania

Zespół ds. zgodności w firmie bankowej korzysta z Ataccama Data Catalog, aby centralnie zarządzać zbiorami danych zawierającymi informacje wrażliwe. Zostały skonfigurowane połączenia z hurtowniami danych (Snowflake, Oracle) – dane są automatycznie importowane i profilowane. Dzięki temu:

  • kolumny zawierające numery PESEL, adresy i dane finansowe są automatycznie oznaczone jako PII,
  • przypisano stewardów danych, którzy opisują ich znaczenie biznesowe,
  • lineage pokazuje zależności — w jaki sposób dane przepływają między warstwami,
  • użytkownicy raportów BI zawsze znają pochodzenie i poziom jakości wykorzystywanych danych.

📌 Źródła

👽 Brudnopis

  • Data Catalog = metadane, widoczność techniczna i semantyczna danych
  • Komponent: Knowledge Catalog → Data Catalog jako warstwa struktury
  • Integracja: źródła, lineage, tagi, klasyfikacja PII, właściciele i dokumentacja
  • Atrakcyjne dla: Stewardów, Zespołów Danych, Zgodności i Governance (np. RODO)
  • AQL: Advanced Query Language do znalezienia zależności, jakości itp.
  • Kluczowe w dużych organizacjach – przeciwdziałanie shadow data, wiele źródeł, SPOG system (single point of governance)