🎯 Definicja
Data Source (źródło danych) to system, zbiór, repozytorium lub fizyczny nośnik, z którego pochodzą dane używane w organizacji — np. baza danych, plik, API, data lake, hurtownia danych czy narzędzie analityczne. Źródło danych jest punktem wejścia dla procesu profilowania, katalogowania i zarządzania danymi w narzędziach data governance i katalogach danych.
🔑 Kluczowe punkty
- Data source to pierwsza referencja w katalogu danych czy systemie metadata management — pozwala rejestrować, profilować i monitorować pochodzenie danych.
- W platformach data governance można przeglądać profilowane tabele, pliki i inne zasoby powiązane z danym źródłem.
- Źródła danych mogą być różnorodne: relacyjne bazy danych, pliki (CSV, Parquet, JSON), platformy chmurowe, API, systemy SaaS.
- Każde źródło w katalogu posiada własny blok metadanych (np. typ źródła, lokalizacja, historia zmian, właściciel, status aktualizacji).
- W narzędziach takich jak Ataccama, edycja źródła (np. zmiana parametrów połączenia, harmonogram dokumentowania, usuwanie, wersjonowanie) odbywa się przez graficzny interfejs.
📚 Szczegółowe wyjaśnienie
Źródło danych stanowi początkowy punkt integracji danych w organizacji. Po zaimportowaniu (rejestracji) źródła w systemie katalogowym możliwe jest:
- Profilowanie i discovery – pełna inwentaryzacja struktur, typów, jakości danych.
- Automatyczne generowanie oraz utrzymanie metadanych – system może samodzielnie rozpoznawać strukturę, właścicieli, zależności i historię zmian.
- Harmonogramowanie i monitorowanie – możliwe jest ustawienie cyklicznych przeglądów jakości lub generowania dokumentacji.
- Edycja i zarządzanie – z poziomu panelu źródła możesz je usunąć, zmienić parametry, zaplanować odświeżanie, czy przeglądać historię wersji.
Centralne repozytorium źródeł danych + powiązane metadane stanowią podstawę nowoczesnego data catalogu oraz fundament do zapewnienia zgodności, jakości i łatwości wyszukiwania danych przez użytkowników biznesowych i technicznych.
Przykład zestawu metadanych źródła danych
Pole | Przykład |
---|---|
Nazwa źródła | CRM_PROD_DB |
Typ | PostgreSQL, Snowflake, S3 |
Lokalizacja | jdbc:postgresql://… |
Status | Aktywne/Odłączone |
Data rejestracji | 2025-04-03 |
Właściciel | [email protected] |
Harmonogram | Codziennie 01:00 |
Historia wersji | Lista zmian metadanych/połączeń |
💡 Przykład zastosowania
# Przykład konceptualny: rejestracja źródła danych w systemie katalogowym
register_data_source(
name="Salesforce_API",
type="REST API",
connection_details={
"endpoint": "https://api.salesforce.com/v1/",
"auth_type": "OAuth2"
}
)
# Następnie możliwe: profilowanie, ustawienie harmonogramu synchronizacji, przypisanie właściciela
W praktyce – użytkownik w Ataccama ONE/Collibra/Microsoft Purview wybiera „Add Data Source”, podaje parametry połączenia, ustawia synchronizację i rozpoczyna analizę oraz mapowanie metadanych dla tego źródła.
📌 Źródła
- IBM: Metadata Management
- Secoda: Metadata Management
- Denodo: Metadata Management
- Informatica: What is metadata management?
- DATAVERSITY: Introduction to Metadata Management
- DQOps: Metadata Management Framework
- Solix: Metadata Management
👽 Brudnopis
- Data source = początek śledzenia lineage, punkt wejścia dla profilowania i data discovery
- Bez rejestracji źródła – niemożliwe monitorowanie, DQ, obsługa cyklu życia danych
- Często workflow: register → profile → owner assign → schedule → version → monitor
- Metadane źródła = fundament późniejszych automatyzacji i compliance
- W nowoczesnych systemach – zarządzanie źródłem możliwe API/UI, synchronizacja wielokanałowa