🎯 Definicja

Rules (reguły) w kontekście zarządzania danymi w Ataccama ONE to formalne, logiczne zasady definiujące operacje walidacyjne, transformacyjne lub detekcyjne stosowane na danych. Reguły są wykorzystywane do oceny jakości danych, wykrywania terminów słownikowych oraz zapewnienia zgodności metadanych i treści danych z politykami organizacji.

🔑 Kluczowe punkty

📦 W Ataccama wyróżniamy dwa główne typy reguł:
1. Detection Rules – służą do wykrywania terminów słownikowych na poziomie atrybutów.
2. Data Quality Evaluation Rules – służą do walidacji, monitorowania i oceny jakości danych.
⚙️ Reguły mogą być konfigurowane przez:
- Condition Builder (interfejs graficzny),
- Advanced Expression (język wyrażeń logicznych, np. DSL),
- Component (zaawansowany blok przetwarzania danych).
🔁 Reguły można przypinać do terminów, kolumn, plików oraz aktywować w harmonogramach monitorujących.
🧠 Reguły są stosowane dynamicznie — nie modyfikują danych źródłowych, lecz analizują ich jakość i zgodność.

📚 Szczegółowe wyjaśnienie

Typy reguł danych

Typ reguły	Cel	Przykład
Detekcja terminu (Detection)	Automatyczne przypisanie terminu słownikowego	Wykrycie, że `email_address` oznacza „Customer Email”
Walidacja (DQ Evaluation)	Sprawdzenie, czy dane są poprawne zgodnie z logiką biznesową	`date_of_birth < today()`
Transformacja	Konwersja wartości (np. `UPPER(email)`)	Zmiana „pl” na „PL”
Standaryzacja	Ujednolicanie formatów, np. NIP, data	2023/01/01 → 01-01-2023
Korekcja	Automatyczne poprawki znanych błędów	Zmieniono „0€” na „0.00”

Techniczne formaty konfiguracji

1. Condition Builder

Interfejs graficzny pozwalający budować reguły bez kodowania, np.:
Column name contains 'email' AND Data type is STRING

2. Advanced Expression (DSL)

value.matches("^[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\\.[A-Za-z]{2,}$")

3. Component

Złożony komponent użycia w pipeline przetwarzania, np. maskowanie, czyszczenie, enrich.

Cykl życia reguły

Tworzenie → 2. Testowanie na zbiorze → 3. Przypisanie do elementu katalogowego → 4. Profilowanie/reguła DQ → 5. Alert lub raport

Gdzie są stosowane reguły?

Tabele w katalogu danych (Catalog Items)
Pojedyncze kolumny / atrybuty
Dane zidentyfikowane jako PII lub krytyczne
Terminy przypisane w słowniku biznesowym
W raporach obserwowalności i dashboardach DQ

💡 Przykład zastosowania

# Reguła walidująca adres e-mail (DSL format)
IF NOT value.matches("^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Z|a-z]{2,}$") THEN 
  REPORT "Invalid email format"

Użytkownik przypina tę regułę do wszystkich kolumn przypisanych do terminu „Customer Email”. W każdej synchronizacji z danymi rejestrowane są przypadki niedopasowania – dane można naprawiać w workflow z Data Stewardem.

📌 Źródła

👽 Brudnopis

W DataOps → rules = repeatable logic block + reusable
Detection Rules → przypisywane przy Data Discovery / Profilowanie
DQ Rules → zasilają dashboard jakości, alerty, raporty kierunkowe
Dobrze ustawić statusy: Passed / Warning / Failed → automatyzacja flagowania
Rule repo = centrum wiedzy dziedzinowej + checklist Quality Management Framework---

title: Rules
created: 2025-04-01
status:
category: data governance / jakość danych
difficulty: średni
language: pl
tags:

reguły
jakość danych
wykrywanie terminów
transformacja danych
walidacja
aliases:
reguły danych
rules engine
DQ rules

🎯 Definicja

🔑 Kluczowe punkty

📦 W Ataccama wyróżniamy dwa główne typy reguł:
1. Detection Rules – służą do wykrywania terminów słownikowych na poziomie atrybutów.
2. Data Quality Evaluation Rules – służą do walidacji, monitorowania i oceny jakości danych.
⚙️ Reguły mogą być konfigurowane przez:
- Condition Builder (interfejs graficzny),
- Advanced Expression (język wyrażeń logicznych, np. DSL),
- Component (zaawansowany blok przetwarzania danych).
🔁 Reguły można przypinać do terminów, kolumn, plików oraz aktywować w harmonogramach monitorujących.
🧠 Reguły są stosowane dynamicznie — nie modyfikują danych źródłowych, lecz analizują ich jakość i zgodność.

📚 Szczegółowe wyjaśnienie

Typy reguł danych

Typ reguły	Cel	Przykład
Detekcja terminu (Detection)	Automatyczne przypisanie terminu słownikowego	Wykrycie, że `email_address` oznacza „Customer Email”
Walidacja (DQ Evaluation)	Sprawdzenie, czy dane są poprawne zgodnie z logiką biznesową	`date_of_birth < today()`
Transformacja	Konwersja wartości (np. `UPPER(email)`)	Zmiana „pl” na „PL”
Standaryzacja	Ujednolicanie formatów, np. NIP, data	2023/01/01 → 01-01-2023
Korekcja	Automatyczne poprawki znanych błędów	Zmieniono „0€” na „0.00”

Techniczne formaty konfiguracji

1. Condition Builder

Interfejs graficzny pozwalający budować reguły bez kodowania, np.:
Column name contains 'email' AND Data type is STRING

2. Advanced Expression (DSL)

value.matches("^[A-Za-z0-9_.+-]+@[A-Za-z0-9-]+\\.[A-Za-z]{2,}$")

3. Component

Złożony komponent użycia w pipeline przetwarzania, np. maskowanie, czyszczenie, enrich.

Cykl życia reguły

Tworzenie → 2. Testowanie na zbiorze → 3. Przypisanie do elementu katalogowego → 4. Profilowanie/reguła DQ → 5. Alert lub raport

Gdzie są stosowane reguły?

Tabele w katalogu danych (Catalog Items)
Pojedyncze kolumny / atrybuty
Dane zidentyfikowane jako PII lub krytyczne
Terminy przypisane w słowniku biznesowym
W raporach obserwowalności i dashboardach DQ

💡 Przykład zastosowania

# Reguła walidująca adres e-mail (DSL format)
IF NOT value.matches("^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Z|a-z]{2,}$") THEN 
  REPORT "Invalid email format"

📌 Źródła

👽 Brudnopis

W DataOps → rules = repeatable logic block + reusable
Detection Rules → przypisywane przy Data Discovery / Profilowanie
DQ Rules → zasilają dashboard jakości, alerty, raporty kierunkowe
Dobrze ustawić statusy: Passed / Warning / Failed → automatyzacja flagowania
Rule repo = centrum wiedzy dziedzinowej + checklist Quality Management Framework

Quartz 4

Explorer

Rules

🎯 Definicja

🔑 Kluczowe punkty

📚 Szczegółowe wyjaśnienie

Typy reguł danych

Techniczne formaty konfiguracji

1. Condition Builder

2. Advanced Expression (DSL)

3. Component

Cykl życia reguły

Gdzie są stosowane reguły?

💡 Przykład zastosowania

📌 Źródła

👽 Brudnopis

🎯 Definicja

🔑 Kluczowe punkty

📚 Szczegółowe wyjaśnienie

Typy reguł danych

Techniczne formaty konfiguracji

1. Condition Builder

2. Advanced Expression (DSL)

3. Component

Cykl życia reguły

Gdzie są stosowane reguły?

💡 Przykład zastosowania

📌 Źródła

👽 Brudnopis

Graph View

Table of Contents

Backlinks