🎯 Definicja

Detection on Attribute (wykrywanie na poziomie atrybutu) to proces przypisywania terminów biznesowych do konkretnych kolumn (atrybutów danych) w tabelach, z użyciem reguł logicznych lub mechanizmów opartych na AI. Działa jako element automatyzacji katalogowania danych oraz wspiera odkrywanie semantyki danych w ramach procesu data discovery i data observability.

🔑 Kluczowe punkty

📍 Dotyczy pojedynczych kolumn (atrybutów) w danych technicznych.
⚙️ Wspiera automatyczne rozpoznawanie terminów biznesowych przy pomocy:
- Reguł wykrywania (Detection Rules),
- Mechanizmów AI opartych na podobieństwie nazw i wartości.
🚀 Można ustawić własne progi czułości (threshold) lub używać operatorów logicznych dla wielu reguł.
🧠 Przypisania dokonywane są na etapie data discovery lub manualnie z poziomu widoku atrybutu.
🔄 Integracja z katalogiem danych i słownikiem biznesowym (Business Glossary).

📚 Szczegółowe wyjaśnienie

Jak działa wykrywanie na poziomie atrybutu?

Po zakończeniu procesu wykrycia danych w źródle (Data Discovery), użytkownik może przejść do widoku tabeli lub obiektu i otworzyć kartę Settings → Detection on Attributes, gdzie konfigurowane są reguły wykrywania i aktywowane mechanizmy AI.

1. AI-based Detection

Wykorzystuje uczenie maszynowe oraz historię wcześniejszych przypisań, by zasugerować termin najbardziej dopasowany do danego atrybutu.
Przykład: pole email_address zostanie oznaczone jako “Customer Email” z dużym prawdopodobieństwem.

2. Rule-based Detection

Użytkownik może przypisać jedną lub wiele reguł wykrywania (Detection Rules):
- Reguły mogą działać na podstawie nazw kolumn, typów danych, wartości referencyjnych.
- Przykład: reguła “email columns” dopasuje się do pól zawierających “email”.

Konfiguracja logiczna

Można zdefiniować operator łączenia wielu reguł:
- AND – wszystkie warunki muszą być spełnione,
- OR – wystarczy spełnienie jednego.

Próg wykrycia (Detection Threshold)

W przypadku reguł opartych na danych (profilowanie, AI), możliwe jest ustawienie minimalnego dopasowania procentowego, np. 85%.

Co się dzieje po wykryciu?

Termin biznesowy może być automatycznie przypisany do atrybutu.
W razie niepewności – system może oznaczyć przypisanie jako “Sugestia”, do zatwierdzenia przez Data Stewarda.
Przypisany termin uruchamia reguły jakości DQ i może być przetwarzany dalej w ramach observability, klasyfikacji danych lub workflow.

💡 Przykład zastosowania

# Pseudokonfiguracja: wykryj termin "Phone Number" na kolumnie, jeśli:
# - Nazwa kolumny zawiera "phone"
# - Typ danych = STRING
# - Występuje wzorzec numeru telefonu
 
detection_rule = {
  "condition": "column_name.contains('phone') AND data_type == 'STRING'",
  "term": "Customer Phone Number"
}
 
apply_detection_on_attribute(table="customers", column="main_phone", rule=detection_rule)

W interfejsie użytkownika taką regułę można zdefiniować za pomocą Condition Builder lub Advanced Expression.

📌 Źródła

👽 Brudnopis

Detekcja = semi-automatyczny krok łączenia technik z semantyką
AI: uczy się z historii powiązań + nazw + rozkładów wartości
Rules: dobry start, większa kontrola; AI: automatyzacja, szersze zastosowania
Lineage = efektywne przypisanie terminów → uruchamia dziedziczne kontrole i raportowanie
Przydatna w MDM, Catalog, Quality i klasyfikacji wrażliwości (np. PII)

Quartz 4

Explorer

Detection on Attribute