🎯 Definicja

Data Source (źródło danych) to system, zbiór, repozytorium lub fizyczny nośnik, z którego pochodzą dane używane w organizacji — np. baza danych, plik, API, data lake, hurtownia danych czy narzędzie analityczne. Źródło danych jest punktem wejścia dla procesu profilowania, katalogowania i zarządzania danymi w narzędziach data governance i katalogach danych.

🔑 Kluczowe punkty

  • Data source to pierwsza referencja w katalogu danych czy systemie metadata management — pozwala rejestrować, profilować i monitorować pochodzenie danych.
  • W platformach data governance można przeglądać profilowane tabele, pliki i inne zasoby powiązane z danym źródłem.
  • Źródła danych mogą być różnorodne: relacyjne bazy danych, pliki (CSV, Parquet, JSON), platformy chmurowe, API, systemy SaaS.
  • Każde źródło w katalogu posiada własny blok metadanych (np. typ źródła, lokalizacja, historia zmian, właściciel, status aktualizacji).
  • W narzędziach takich jak Ataccama, edycja źródła (np. zmiana parametrów połączenia, harmonogram dokumentowania, usuwanie, wersjonowanie) odbywa się przez graficzny interfejs.

📚 Szczegółowe wyjaśnienie

Źródło danych stanowi początkowy punkt integracji danych w organizacji. Po zaimportowaniu (rejestracji) źródła w systemie katalogowym możliwe jest:

  • Profilowanie i discovery – pełna inwentaryzacja struktur, typów, jakości danych.
  • Automatyczne generowanie oraz utrzymanie metadanych – system może samodzielnie rozpoznawać strukturę, właścicieli, zależności i historię zmian.
  • Harmonogramowanie i monitorowanie – możliwe jest ustawienie cyklicznych przeglądów jakości lub generowania dokumentacji.
  • Edycja i zarządzanie – z poziomu panelu źródła możesz je usunąć, zmienić parametry, zaplanować odświeżanie, czy przeglądać historię wersji.

Centralne repozytorium źródeł danych + powiązane metadane stanowią podstawę nowoczesnego data catalogu oraz fundament do zapewnienia zgodności, jakości i łatwości wyszukiwania danych przez użytkowników biznesowych i technicznych.

Przykład zestawu metadanych źródła danych

PolePrzykład
Nazwa źródłaCRM_PROD_DB
TypPostgreSQL, Snowflake, S3
Lokalizacjajdbc:postgresql://…
StatusAktywne/Odłączone
Data rejestracji2025-04-03
Właściciel[email protected]
HarmonogramCodziennie 01:00
Historia wersjiLista zmian metadanych/połączeń

💡 Przykład zastosowania

# Przykład konceptualny: rejestracja źródła danych w systemie katalogowym
register_data_source(
    name="Salesforce_API",
    type="REST API",
    connection_details={
        "endpoint": "https://api.salesforce.com/v1/",
        "auth_type": "OAuth2"
    }
)
# Następnie możliwe: profilowanie, ustawienie harmonogramu synchronizacji, przypisanie właściciela

W praktyce – użytkownik w Ataccama ONE/Collibra/Microsoft Purview wybiera „Add Data Source”, podaje parametry połączenia, ustawia synchronizację i rozpoczyna analizę oraz mapowanie metadanych dla tego źródła.

📌 Źródła

👽 Brudnopis

  • Data source = początek śledzenia lineage, punkt wejścia dla profilowania i data discovery
  • Bez rejestracji źródła – niemożliwe monitorowanie, DQ, obsługa cyklu życia danych
  • Często workflow: register → profile → owner assign → schedule → version → monitor
  • Metadane źródła = fundament późniejszych automatyzacji i compliance
  • W nowoczesnych systemach – zarządzanie źródłem możliwe API/UI, synchronizacja wielokanałowa