🎯 Definicja
Data Catalog (Katalog Danych) to centralna, zorganizowana przestrzeń służąca do przechowywania, przeglądania i zarządzania metadanymi dotyczącymi zasobów danych w organizacji — takich jak tabele, kolumny, źródła danych, lineage i zależności semantyczne. W Ataccama ONE katalog danych jest częścią szerszego komponentu o nazwie Knowledge Catalog i umożliwia organizacjom efektywne odnajdywanie, opisywanie i analizowanie danych.
🔑 Kluczowe punkty
- Centralna rejestracja zasobów danych: tabele, bazy, raporty, modele, zbiory danych.
- Metadane techniczne i biznesowe: Data Catalog przechowuje zarówno informacje systemowe (schemas, types), jak i opisy użytkownika (definicje, właściciele, tagi, klasyfikacje).
- Integracje z wieloma źródłami danych: źródła fizyczne (Snowflake, PostgreSQL, S3 itd.) i wirtualne (API).
- Odkrywanie i profilowanie danych: możliwość analizowania jakości danych oraz ich zawartości bez potrzeby wykonywania zapytań.
- Wsparcie dla lineages i stewardingu: śledzenie pochodzenia danych oraz przypisanie właścicieli i odpowiedzialności.
📚 Szczegółowe wyjaśnienie
Czym jest Data Catalog w Ataccama?
W Ataccama, katalog danych oferuje:
- pełne zarządzanie metadanymi w ramach jednego interfejsu,
- wizualizację dziedziczenia danych (lineage),
- przypisanie właścicieli danych (stewardów),
- automatyczne podpowiedzi terminów słownikowych (term suggestions),
- integrację z narzędziami klasyfikacyjnymi (data classification, scoring).
Elementami składowymi katalogu danych są:
- 📦 Catalog Items — logiczne jednostki danych, np. tabela, pole, pipeline.
- 🌐 Sources — fizyczne źródła danych (bazy danych, Lake, pliki).
- 🧠 Term Suggestions — podpowiedzi słownikowe dla metadanych, np. mapowanie kolumn na terminy słownika biznesowego.
- 🔗 Lineage Import — integracja i import widoku pochodzenia danych (lineage) z narzędzi zewnętrznych lub pipelines.
Główne funkcje
- Konfigurowanie połączeń do różnych źródeł danych (JDBC/API).
- Automatyczne i ręczne wzbogacanie metadanych (np. tagi, właściciele, opisy).
- Przeglądanie danych i ich profili (rozrzut wartości, null, typy).
- Wyszukiwanie danych przy pomocy języka AQL i filtrów.
- Obsługa stewardingu i klasyfikacji danych (np. PII, dane wrażliwe).
- Integracja z data quality, monitoringiem i warstwą semantyczną.
💡 Przykład zastosowania
Zespół ds. zgodności w firmie bankowej korzysta z Ataccama Data Catalog, aby centralnie zarządzać zbiorami danych zawierającymi informacje wrażliwe. Zostały skonfigurowane połączenia z hurtowniami danych (Snowflake, Oracle) – dane są automatycznie importowane i profilowane. Dzięki temu:
- kolumny zawierające numery PESEL, adresy i dane finansowe są automatycznie oznaczone jako PII,
- przypisano stewardów danych, którzy opisują ich znaczenie biznesowe,
- lineage pokazuje zależności — w jaki sposób dane przepływają między warstwami,
- użytkownicy raportów BI zawsze znają pochodzenie i poziom jakości wykorzystywanych danych.
📌 Źródła
👽 Brudnopis
- Data Catalog = metadane, widoczność techniczna i semantyczna danych
- Komponent: Knowledge Catalog → Data Catalog jako warstwa struktury
- Integracja: źródła, lineage, tagi, klasyfikacja PII, właściciele i dokumentacja
- Atrakcyjne dla: Stewardów, Zespołów Danych, Zgodności i Governance (np. RODO)
- AQL: Advanced Query Language do znalezienia zależności, jakości itp.
- Kluczowe w dużych organizacjach – przeciwdziałanie shadow data, wiele źródeł, SPOG system (single point of governance)