Obserwowalność danych, znana również jako monitoring, ciągle zbiera miary dotyczące twoich danych. Możesz zbierać dane dotyczące liczby wierszy, kolumn i właściwości dla każdego zbioru danych. Możesz również zarządzać metadanymi na temat zestawu danych, takimi jak data ostatniej aktualizacji.

Z doskonałego artykułu Wybór narzędzia do jakości danych - autorstwa Sarah Krasnik, wynikają również różne kategorie obserwowalności:

  • Automatyczne profilowanie danych
    • Bigeye: unikalne ze względu na szeroki zakres testów progowych i alarmów sterowanych sztuczną inteligencją (ML)
    • Datafold: unikalna integracja z Githubem prezentująca różnice danych między środowiskami za pomocą testów niestandardowych
    • Monte Carlo: unikalność polega na tym, że jest gotowe do działania w przedsiębiorstwach i oferuje wiele integracji z danymi w jeziorach
    • Lightup: unikalna opcja wdrożenia na własnym serwerze, atrakcyjna dla branż mocno uregulowanych
    • Metaplane: unikalne wysokie stopień konfiguracji narzędzia hostowanego, oferujące zarówno gotowe, jak i niestandardowe testy
  • Testowanie potoku danych
    • Great Expectations: unikalność polega na społeczności skupionej na jakości danych i automatycznej dokumentacji testów
    • Soda: unikalność polega na opcji samodzielnego hostowania w chmurze
    • Testy dbt: unikalność polega na integracji z rdzeniem dbt i budowami w chmurze dbt (naturalnie), ale poza ekosystemem dbt jest mniej wszechstronny
  • Monitorowanie infrastruktury
    • DataDog: unikalna implementacja agenta, który może być wdrożony w dowolnym miejscu w celu monitorowania, nawet na poziomie kontenera, z niestandardowym raportowaniem miar Airflow
    • New Relic: unikalna integracja jednym krokiem z trzema głównymi chmurami
  • Trochę z każdego
    • Databand: unikalna integracja z Airflow i konkretnym monitorowaniem miar Airflow
    • Unravel: unikalne wsparcie dla innych źródeł danych, takich jak Spark, jezioro danych i bazy danych NoSQL
    • Katalogi Danych: Pomagają w obserwacji istniejących danych

Powiązane terminy to Gospodarka Danych i Jakość Danych.