🎯 Definicja

Data Observability to zdolność systemu do automatycznego monitorowania stanu, jakości i ruchu danych w całym ekosystemie danych. Konfiguracja Data Observability polega na ustawieniu reguł, metryk i powiadomień dotyczących informacji, które mają być obserwowane oraz tego, jak często i w jakiej formie użytkownik ma być informowany o ewentualnych problemach z danymi.

🔑 Kluczowe punkty

  • 📦 Obsługuje zarówno konfigurację podstawową (monitorowanie podstawowych metryk), jak i zaawansowaną (niestandardowe reguły, alerty, cykle harmonogramu).
  • 🧩 Wymaga wykrycia i rozpoznania źródeł danych (discovery), zanim możliwa będzie konfiguracja.
  • 🔔 Powiadomienia mogą obejmować: brakujące dane, anomalie w rozmiarze, błędy schematowe, regresję jakości itp.
  • ⚙️ Możesz tworzyć i edytować konfigurację dla każdego źródła danych indywidualnie.
  • 📊 Umożliwia obserwację na poziomie źródła, tabeli, kolumny lub metryki.

📚 Szczegółowe wyjaśnienie

Jak skonfigurować Data Observability?

Po zakończeniu procesu Data Discovery w wybranym źródle (np. baza danych, plik, jezioro danych):

1. Konfiguracja nowej obserwowalności

  1. Przejdź do zakładki Data Observability w widoku źródła danych.
  2. Kliknij ikonę ⚙️ (Ustawienia) → Nowa konfiguracja.
  3. Wybierz zakres obserwacji: całość, konkretne tabele, kolumny lub metryki.
  4. Ustaw częstotliwość (np. codziennie, co godzinę).
  5. Wybierz sposób powiadomień (np. email, Slack, webhook).

2. Edycja istniejącej konfiguracji

  1. Otwórz źródło danych > zakładka Data Observability.
  2. Kliknij ikonę ustawień lub użyj menu z trzema kropkami przy istniejącej konfiguracji.
  3. Zmień harmonogram, zakres danych lub aktywuj dodatkowe alerty.

3. Przykładowe metryki do monitorowania

Typ metrykiOpis
Null RateProcent brakujących wartości w kolumnie
Row CountLiczba wierszy względem ostatnich synchronizacji
FreshnessJak aktualne są dane (timestamp vs. czas systemowy)
Schema DriftWykrycie zmian w schemacie danych (dodanie/usunięcie kolumn)
Value DistributionDetekcja nietypowych wartości (outliers, pattern break, bias)

Tryby konfiguracji

  • Podstawowa (Basic): szybkie ustawienia dla kluczowych metryk, bez pisania reguł.
  • Zaawansowana (Advanced): niestandardowe formuły, połączenia z DQ Engine lub integracja z regułami DQ platform (np. Ataccama DQ, Soda SQL, dbt tests).

💡 Przykład zastosowania

# Pseudokod konfiguracji harmonogramu obserwowalności dla tabeli zamówienia
observe_table(
  source='Snowflake',
  table='orders',
  metrics=['row_count', 'null_rate', 'freshness'],
  schedule='daily',
  alert_channels=['slack_webhook', 'email'],
  threshold_rules={
    'row_count_change': '>10%',
    'null_rate': '<= 1%',
    'freshness_max': '1 day'
  }
)

W tym przykładzie konfigurujemy system do monitorowania trzech metryk codziennie. W razie odchyleń – system generuje alerty.

📌 Źródła

👽 Brudnopis

  • „Observe what matters” – nie wszystko trzeba monitorować, tylko krytyczne dane
  • lifecycle = discovery → configure → run → alert → feedback
  • Wyzwalacze czasowe vs. zdarzeniowe
  • Integracje: Airflow/Prefect → trigger if issue, dbt → execute test + alert
  • DataOps: observability + lineage + testing = pełen monitoring jakości danych