🎯 Definicja

Sources w kontekście platformy Ataccama ONE to zarejestrowane źródła danych, które stanowią podstawę do dalszych operacji zarządzania danymi — takich jak profilowanie, data discovery, katalogowanie, klasyfikacja, ocena jakości oraz dokumentacja techniczna i biznesowa. Źródła można tworzyć i konfigurować manualnie w sekcji Data Catalog → Sources.

🔑 Kluczowe punkty

  • 🔌 Źródło danych definiuje punkt wejścia do danych – np. baza danych, Data Lake, S3 bucket, JDBC, REST API.
  • 🛠️ Do jednego źródła można przypisać wiele połączeń (connections), nawet różnego typu.
  • 👥 W ramach źródła można zarządzać poświadczeniami i dostępami dla różnych użytkowników.
  • ⚙️ Obsługiwane działania to: testowanie połączenia, discovery danych, pełne profilowanie, uruchomienie pipeline’u dokumentującego.
  • 🧹 Można natychmiastowo usunąć źródło jednym kliknięciem („Instant delete”).

📚 Szczegółowe wyjaśnienie

Jak działa sekcja Sources?

Sekcja Sources w Ataccama ONE umożliwia:

  • Dodawanie i konfigurację źródeł danych.
  • Zarządzanie kilkoma połączeniami pod jedno źródło (np. różne środowiska: DEV, PROD).
  • Przegląd wcześniej zarejestrowanych źródeł, statusów testu połączeń, historii operacji.
  • Uruchamianie Data Discovery i Profilowania w obrębie wybranego źródła.
  • Inicjowanie flows: dokumentacja, klasyfikacja, lineage.

Obsługiwane źródła danych (przykładowe)

Typ źródłaPrzykład zastosowania
Amazon S3Pliki JSON, Parquet, CSV w chmurze
SnowflakeHurtownia danych analitycznych
PostgreSQL / OracleBazy danych transakcyjne
Google BigQueryAnalityka danych z Google Cloud
Azure Blob StoragePliki stagingowe lub półstrukturalne dane
Generic JDBCUniwersalne źródło z danym sterownikiem
REST APIDane SaaS, CRM, systemów zewnętrznych

Elementy zarządzania źródłem

  • Nazwa źródła i typ (np. „CRM_PROD – PostgreSQL DB”).
  • Lista połączeń (Connection Name, URL, status).
  • Przypisane poświadczenia – do każdego połączenia może być przypisanych wiele credential profiles.
  • Aktywne procesy Discover / Profiling / Documentation History.
  • Uprawnienia: kto może użyć źródła i w jakim zakresie.
  • Monitorowanie: ostatnie działania, błędy, harmonogramy.

Przykład cyklu życia źródła

  1. 🛠️ Administrator dodaje źródło „Salesforce_Prod_API” z poświadczeniem OAuth2.
  2. 🔎 Użytkownik uruchamia Discovery, by zidentyfikować strukturę danych i dodać ją do Katalogu.
  3. 🧪 Kolejny użytkownik włącza opcję Manual Profiling na obiektach typu „Customer Record”.
  4. 📊 Analizy DQ oraz przypisanie terminów słownikowych następuje automatycznie.
  5. 🧹 Nieaktualne lub zduplikowane źródła są usuwane przy użyciu „Instant delete”.

💡 Przykład zastosowania

# Pseudokod opisujący konfigurację źródła danych w systemie katalogowym
create_source(
    name="Azure_Finance_Data Lakehouse|Lakehouse",
    type="Azure Blob Storage",
    connections=[
        {"name": "prod-conn", "container": "finance", "auth": "KeyVaultRef"},
        {"name": "dev-conn", "container": "finance-dev", "auth": "KeyLocal"}
    ],
    default_credentials="prod-conn",
    profiling_enabled=True,
    visibility="Project Only"
)

📌 Źródła

👽 Brudnopis

  • „Source” to logiczny kontener dla jednego lub wielu połączeń do danego systemu.
  • Kluczowy obiekt startowy pod wszystkie procesy: profiling, DQ, observability, lineage.
  • Możliwość osobnych creds per env → jedna definicja używana w wielu flow.
  • Warto przypisywać źródło do domeny danych lub grup ownershipowych.
  • Best practice: wersjonować zmiany i dbać o naming conventions (np. ENV_SYSTEM_TYP).