🎯 Definicja

Technika identyfikacji rzadkich zdarzeń lub obserwacji, które znacząco odbiegają od większości danych (wzorca standardowego). W kontekście Danych (DQ) służy do automatycznego wykrywania błędów bez sztywno zdefiniowanych reguł.

🔑 Kluczowe punkty

Time-series based: Analiza trendu w czasie (np. nagły spadek liczby wierszy w tabeli o 50%).
Distribution based: Analiza rozkładu wartości (np. pojawienie się wartości ujemnych w kolumnie “Wiek”).
Automatyzacja: Pozwala monitorować tysiące tabel bez pisania tysięcy testów SQL.

📚 Szczegółowe wyjaśnienie

Tradycyjne podejście do jakości danych wymaga pisania reguł: SELECT count(*) FROM table WHERE age < 0. Jest to pracochłonne i wymaga wiedzy, czego szukać. Anomaly Detection (część Data Observability) uczy się “normalności”.

Dzień 1: 1000 wierszy.
Dzień 2: 1100 wierszy.
Dzień 3: 1050 wierszy.
Dzień 4: 10 wierszy → ALERT (Anomalia wolumenu).

Systemy takie jak Ataccama, Monte Carlo czy Soda wykorzystują ML do estymacji oczekiwanych zakresów.

💡 Przykład zastosowania

Monitoring przychodów sklepu internetowego. System wie, że w weekendy sprzedaż rośnie (sezonowość). Jeśli w sobotę sprzedaż będzie na poziomie wtorku – system zgłosi anomalię, mimo że wartość jest “powyżej zera”. Zwykła reguła statyczna (sales > 0) by tego nie wykryła.

📌 Źródła

Monte Carlo Data - Data Observability.
Ataccama DQ Monitoring.

👽 Brudnopis

Metody: Z-score, Isolation Forest, Prophet (szeregi czasowe).
Typy anomalii: Point anomalies (pojedynczy punkt), Contextual anomalies (np. wysoka temperatura w zime jest ok w Australii, ale nie w Polsce), Collective anomalies.
Row count, Null rate drift, Schema changes.

Quartz 4

Explorer

Detekcja Anomalii (Anomaly Detection)