🎯 Definicja
Data Source (Źródło Danych) to punkt wejścia dla każdego systemu zarządzania danymi. Reprezentuje fizyczną lokalizację, skąd pobierane są dane – może to być baza danych (PostgreSQL), hurtownia (Snowflake), system plików (S3) lub API. W Data Catalogu “Źródło” to obiekt przechowujący parametry połączenia (host, port, user) i metadane techniczne.
🔑 Kluczowe punkty
- Rejestracja: Aby zarządzać danymi, musisz najpierw zarejestrować ich źródło.
- Skanowanie: Systemy (jak Ataccama) skanują źródło, aby pobrać listę tabel i kolumn (bez pobierania zawartości).
- Profilowanie: Po zarejestrowaniu można uruchomić profilowanie, by zrozumieć jakość danych.
📚 Szczegółowe wyjaśnienie
W Ataccama ONE hierarchia wygląda tak:
Source (Baza) → Location (Schema) → Catalog Item (Tabela/Plik) → Attribute (Kolumna).
Źródło jest “korzeniem” tego drzewa.
Zarządzanie źródłem obejmuje:
- Connectivity: Sterowniki JDBC, poświadczenia (Credentials).
- Scheduling: Jak często odświeżać metadane? (np. schema drift detection).
- Permissions: Kto może widzieć to źródło w katalogu?
💡 Przykład zastosowania
Chcesz objąć Data Governance’m system CRM Salesforce.
- Rejestrujesz nowe Data Source typu “Salesforce”.
- Podajesz URL API i token.
- Uruchamiasz “Metadata Load”.
- Po chwili w Katalogu widzisz obiekty:
Accounts,Contacts,Opportunities. Teraz stewardzi mogą opisywać te obiekty, choć fizycznie dane nadal siedzą w chmurze Salesforce.
📌 Źródła
- Ataccama ONE Documentation - Connecting to Data Sources.
👽 Brudnopis
- Ważne rozróżnienie: Read Credentials (do skanowania/profilowania) vs Write Credentials (do eksportu/naprawy). Zawsze stosuj zasadę najmniejszych przywilejów (Least Privilege).