🎯 Definicja
Data Reconciliation (Rekonsyliacja) to proces porównywania dwóch zbiorów danych w celu upewnienia się, że są one zgodne. Najczęściej stosowany podczas migracji danych (np. z Oracle do Snowflake) lub weryfikacji procesów finansowych, aby potwierdzić, że “to co wyszło” jest tym samym, “co dotarło”.
🔑 Kluczowe punkty
- Porównanie: Sprawdza liczbę rekordów (Row Count), sumy kontrolne (Aggregates) oraz rozkłady wartości.
- Wykrywanie różnic: Wskazuje braki (orphans), duplikaty i niezgodności wartości.
- Zastosowanie: Testy regresji, migracje, audyty finansowe.
📚 Szczegółowe wyjaśnienie
W Ataccama ONE funkcja “Reconciliation” pozwala porównać metadane i statystyki profilowania między systemem źródłowym (Origin) a docelowym (Target). Nie zawsze trzeba porównywać każdy rekord (co jest kosztowne). Często wystarczy:
- Czy liczba wierszy się zgadza?
- Czy suma kolumny
kwota_transakcjijest taka sama? - Czy
min/maxdaty są takie same? Jeśli te metryki się zgadzają, istnieje wysokie prawdopodobieństwo, że migracja się udała.
💡 Przykład zastosowania
Migracja hurtowni danych z on-premise do chmury.
Tabela Faktury ma 10 mln wierszy.
Po skopiowaniu do chmury uruchamiasz Reconciliation.
Wynik:
- Row Count: Zgodny (10 mln).
- Suma Netto: Niezgodna (różnica o 0.01 PLN). Wniosek: Błąd zaokrągleń przy konwersji typów danych (np. float vs decimal). Bez rekonsyliacji mógłbyś tego nie zauważyć.
📌 Źródła
- “Data Quality Assessment” - Arkady Maydanchik.
- Ataccama ONE Documentation.
👽 Brudnopis
- Fingerprinting: Technika tworzenia skrótów (haszy) z danych, aby szybko porównywać duże zbiory bez przesyłania ich całej zawartości.
- W One Desktop można zrobić
Record Level Reconciliation(porównanie każdego wiersza ID do ID), ale jest to zasobożerne.