🎯 Definicja

Catalog Items to podstawowe jednostki katalogowania danych w systemach typu data catalog (np. Ataccama ONE). Reprezentują one konkretne obiekty danych – takie jak tabele, widoki, pliki, raporty BI – które zostały odnalezione, zaimportowane lub utworzone podczas procesu data discovery lub manualnej rejestracji źródła danych.

🔑 Kluczowe punkty

  • 📦 Catalog Item może reprezentować fizyczny lub logiczny zbiór danych: tabela, plik, zestaw dokumentów z API, raport BI itp.
  • 🧭 Każdy element posiada bogaty zestaw metadanych: struktura, typy danych, atrybuty, jakość, przypisane terminy słownikowe.
  • 🔍 Widoczność i zakres informacji zależy od ról i uprawnień użytkownika.
  • 🧠 Wspierają procesy profilowania, monitorowania jakości (DQ), klasyfikacji, przypisywania reguł i terminów biznesowych.
  • 📊 Podłączone mogą być również: raporty BI, klasyfikacje PII, lineage, właściwości techniczne.

📚 Szczegółowe wyjaśnienie

Typowe typy Catalog Items

TypPrzykładOpis
Tabela danychsales_db.ordersStruktura relacyjna z danych źródłowych
Plikfinance_2022.csvPliki z S3, HDFS, lokalne, Parquet, JSON, Excel
Widokvw_active_customersWidoki SQL lub logiczne widoki BI
BI ReportPowerBI_SalesDashboardRaport podłączony przez REST API lub connector
Element MDMmaster_productDane wzorcowe (single source of truth)
Referencyjny słownikcountry_codesLista stałych wartości wykorzystywana w regułach walidacji

Kluczowe właściwości katalogowanego elementu

  • Techniczne:
    • Źródło danych, połączenie, lokalizacja (schema, path)
    • Typ danych kolumn, klucze, rozmiar
    • Historia zmian struktury
  • Metadane biznesowe:
  • Jakość i klasyfikacja:
    • Wyniki reguł DQ, testy, scoring
    • Detekcja PII / GDPR / wrażliwość danych
  • Powiązania:
    • Lineage (przepływ danych i zależności)
    • Powiązane raporty BI, reguły, niestandardowe obiekty

Wbudowane widoki i sekcje

  • 📄 Overview – Opis, typ, tagi, właściciel, status monitorowania
  • 📈 Quality – Szczegóły wyników reguł jakości
  • 🧬 Lineage – Zależności wejść/wyjść z katalogu
  • 🧾 Glossary Terms – Terminy powiązane z kolumnami lub całą tabelą
  • ⚠️ Anomalies/Issues – Problemy wykryte w DQ / observability
  • 📂 Folder Hierarchy – Folder nadrzędny, zakres widoczności

Sekcje specjalne

  • Not Monitored – elementy bez przypisanych reguł DQ ani harmonogramu.
  • Master Data – katalogowane obiekty ze źródła MDM.
  • Reference Data – obiekty typu lista wartości, słowniki RDM.
  • Anomaly Overview – wszystkie elementy z wykrytymi anomaliami.
  • Data Export Projects – elementy powiązane z projektami eksportu danych.

💡 Przykład zastosowania

# Pseudoprzypisanie elementu do folderu + dodanie opisu i terminu
update_catalog_item(
    item_id="finance.transactions_2023",
    folder="Finance/Quarterly",
    description="Zbiór danych przedstawiający transakcje finansowe z Q1 2023.",
    glossary_terms=["Transaction", "Quarterly Report"]
)

W Ataccama można to zrobić przez GUI (menu boczne → Data Catalog → Catalog Item → Edit).

📌 Źródła

👽 Brudnopis

  • Catalog Item = podstawowa jednostka organizacyjna danych w katalogu
  • Może być zasobem fizycznym lub logicznym
  • Fundament do zarządzania jakością, widocznością, dokumentacją i zgodnością
  • Integruje się z linią danych (lineage), BI, scoringiem DQ, klasyfikacją, politykami dostępu
  • Typowy cykl życia: odkrycie → przypisanie terminów → profilowanie → monitoring DQ → publikacja folderowa → użycie w systemie BI/AI