🎯 Definicja
Invalid Records (Próbki Niepoprawnych Rekordów) to funkcja w Ataccama ONE, która pozwala podejrzeć przykładowe wiersze, które nie przeszły reguł jakości danych. Zamiast widzieć tylko statystykę (“5 błędów”), widzisz konkretne dane (“Janusz Kowalski, email: janusz at pl”), co pozwala zrozumieć przyczynę problemu.
🔑 Kluczowe punkty
- Kontekst: Widzisz cały wiersz, nie tylko błędną kolumnę.
- Konfiguracja: Możesz ustawić limit próbek (np. 100 sztuk), aby nie zapychać bazy.
- Bezpieczeństwo: Pamiętaj, że próbki mogą zawierać dane wrażliwe (PII). Można wyłączyć tę funkcję dla danych poufnych.
📚 Szczegółowe wyjaśnienie
Gdy uruchamiasz Monitoring Projekt (DQ):
- System sprawdza miliony rekordów.
- Wylicza statystyki (np. 95% poprawności).
- Dla tych 5% błędnych - zapisuje losową próbkę (Samples) do bazy ONE, abyś mógł je obejrzeć w GUI (“Show invalid samples”). Jeśli potrzebujesz wszystkich błędnych rekordów (a nie tylko próbki), musisz skonfigurować Export, a nie polegać na próbkach.
💡 Przykład zastosowania
Reguła “Walidacja Telefonu” pokazuje 20% błędów.
Steward klika “Show invalid samples”.
Widzi: 123-456-789, (22) 123 45 67, +48 123....
Wniosek: Dane są poprawne, ale w różnych formatach. Reguła jest zbyt restrykcyjna (wymagała samych cyfr).
Działanie: Steward poprawia regułę, zamiast czyścić dane.
📌 Źródła
- Ataccama ONE Documentation - Monitoring Projects.
👽 Brudnopis
- Próbki to potężne narzędzie diagnostyczne (“Debugowanie danych”).
- W GUI Ataccamy często dostępne pod “trzech kropkami” przy wyniku reguły.