🎯 Definicja

Detection on Attribute (wykrywanie na poziomie atrybutu) to proces przypisywania terminów biznesowych do konkretnych kolumn (atrybutów danych) w tabelach, z użyciem reguł logicznych lub mechanizmów opartych na AI. Działa jako element automatyzacji katalogowania danych oraz wspiera odkrywanie semantyki danych w ramach procesu data discovery i data observability.

🔑 Kluczowe punkty

  • 📍 Dotyczy pojedynczych kolumn (atrybutów) w danych technicznych.
  • ⚙️ Wspiera automatyczne rozpoznawanie terminów biznesowych przy pomocy:
    • Reguł wykrywania (Detection Rules),
    • Mechanizmów AI opartych na podobieństwie nazw i wartości.
  • 🚀 Można ustawić własne progi czułości (threshold) lub używać operatorów logicznych dla wielu reguł.
  • 🧠 Przypisania dokonywane są na etapie data discovery lub manualnie z poziomu widoku atrybutu.
  • 🔄 Integracja z katalogiem danych i słownikiem biznesowym (Business Glossary).

📚 Szczegółowe wyjaśnienie

Jak działa wykrywanie na poziomie atrybutu?

Po zakończeniu procesu wykrycia danych w źródle (Data Discovery), użytkownik może przejść do widoku tabeli lub obiektu i otworzyć kartę Settings → Detection on Attributes, gdzie konfigurowane są reguły wykrywania i aktywowane mechanizmy AI.

1. AI-based Detection

  • Wykorzystuje uczenie maszynowe oraz historię wcześniejszych przypisań, by zasugerować termin najbardziej dopasowany do danego atrybutu.
  • Przykład: pole email_address zostanie oznaczone jako “Customer Email” z dużym prawdopodobieństwem.

2. Rule-based Detection

  • Użytkownik może przypisać jedną lub wiele reguł wykrywania (Detection Rules):
    • Reguły mogą działać na podstawie nazw kolumn, typów danych, wartości referencyjnych.
    • Przykład: reguła “email columns” dopasuje się do pól zawierających “email”.

Konfiguracja logiczna

  • Można zdefiniować operator łączenia wielu reguł:
    • AND – wszystkie warunki muszą być spełnione,
    • OR – wystarczy spełnienie jednego.

Próg wykrycia (Detection Threshold)

  • W przypadku reguł opartych na danych (profilowanie, AI), możliwe jest ustawienie minimalnego dopasowania procentowego, np. 85%.

Co się dzieje po wykryciu?

  • Termin biznesowy może być automatycznie przypisany do atrybutu.
  • W razie niepewności – system może oznaczyć przypisanie jako “Sugestia”, do zatwierdzenia przez Data Stewarda.
  • Przypisany termin uruchamia reguły jakości DQ i może być przetwarzany dalej w ramach observability, klasyfikacji danych lub workflow.

💡 Przykład zastosowania

# Pseudokonfiguracja: wykryj termin "Phone Number" na kolumnie, jeśli:
# - Nazwa kolumny zawiera "phone"
# - Typ danych = STRING
# - Występuje wzorzec numeru telefonu
 
detection_rule = {
  "condition": "column_name.contains('phone') AND data_type == 'STRING'",
  "term": "Customer Phone Number"
}
 
apply_detection_on_attribute(table="customers", column="main_phone", rule=detection_rule)

W interfejsie użytkownika taką regułę można zdefiniować za pomocą Condition Builder lub Advanced Expression.

📌 Źródła

👽 Brudnopis

  • Detekcja = semi-automatyczny krok łączenia technik z semantyką
  • AI: uczy się z historii powiązań + nazw + rozkładów wartości
  • Rules: dobry start, większa kontrola; AI: automatyzacja, szersze zastosowania
  • Lineage = efektywne przypisanie terminów → uruchamia dziedziczne kontrole i raportowanie
  • Przydatna w MDM, Catalog, Quality i klasyfikacji wrażliwości (np. PII)