Obserwowalność danych, znana również jako monitoring, ciągle zbiera miary dotyczące twoich danych. Możesz zbierać dane dotyczące liczby wierszy, kolumn i właściwości dla każdego zbioru danych. Możesz również zarządzać metadanymi na temat zestawu danych, takimi jak data ostatniej aktualizacji.
Z doskonałego artykułu Wybór narzędzia do jakości danych - autorstwa Sarah Krasnik, wynikają również różne kategorie obserwowalności:
- Automatyczne profilowanie danych
- Bigeye: unikalne ze względu na szeroki zakres testów progowych i alarmów sterowanych sztuczną inteligencją (ML)
- Datafold: unikalna integracja z Githubem prezentująca różnice danych między środowiskami za pomocą testów niestandardowych
- Monte Carlo: unikalność polega na tym, że jest gotowe do działania w przedsiębiorstwach i oferuje wiele integracji z danymi w jeziorach
- Lightup: unikalna opcja wdrożenia na własnym serwerze, atrakcyjna dla branż mocno uregulowanych
- Metaplane: unikalne wysokie stopień konfiguracji narzędzia hostowanego, oferujące zarówno gotowe, jak i niestandardowe testy
- Testowanie potoku danych
- Great Expectations: unikalność polega na społeczności skupionej na jakości danych i automatycznej dokumentacji testów
- Soda: unikalność polega na opcji samodzielnego hostowania w chmurze
- Testy dbt: unikalność polega na integracji z rdzeniem dbt i budowami w chmurze dbt (naturalnie), ale poza ekosystemem dbt jest mniej wszechstronny
- Monitorowanie infrastruktury
- Trochę z każdego
- Databand: unikalna integracja z Airflow i konkretnym monitorowaniem miar Airflow
- Unravel: unikalne wsparcie dla innych źródeł danych, takich jak Spark, jezioro danych i bazy danych NoSQL
- Katalogi Danych: Pomagają w obserwacji istniejących danych
Powiązane terminy to Gospodarka Danych i Jakość Danych.