🎯 Definicja

Data Profiling to “rentgen danych”. To proces automatycznego skanowania tabeli w celu zrozumienia, co w niej siedzi. Profilowanie mówi Ci: “Masz 10% nulli w kolumnie Email, a w kolumnie Wiek ktoś wpisał -50”.

🔑 Kluczowe punkty

  • Statystyki: Min, Max, Średnia, Odchylenie, Liczba Unikalnych Wartości.
  • Wzorce (Patterns): Wykrywa, że telefony mają format “XXX-XXX-XXX” a nie “+48…“.
  • Typy danych: Sprawdza, czy kolumna “Data Urodzenia” to na pewno Data, a nie String.

📚 Szczegółowe wyjaśnienie

Profilowanie to PIERWSZY krok w każdym projekcie migracji lub jakości danych. Nie możesz naprawić danych, jeśli nie wiesz, co jest zepsute. Narzędzia (jak Ataccama ONE) robią to automatycznie po podpięciu źródła.

💡 Przykład zastosowania

Dostajesz plik CSV z “bazą klientów” od partnera. Zanim wgrasz go do swojego CRM, puszczasz Profilowanie. Wynik:

  • Kolumna Email: 30% duplikatów (Oho! Trzeba deduplikować).
  • Kolumna Kraj: Wartości “Polska”, “PL”, “Poland”, “Polsza”. (Trzeba ustandaryzować słownikiem). Bez profilowania te śmieci trafiłyby do Twojego systemu.

📌 Źródła

  • DAMA DMBOK.

👽 Brudnopis

  • Profilowanie ≠ Monitoring. Profilowanie to “zdjęcie” (Snapshot) w danym momencie. Monitoring to “film” (ciągła kontrola zmian w czasie).