🎯 Definicja
Data Quality (DQ) to miara tego, w jakim stopniu dane nadają się do zamierzonego celu (Fitness for Purpose). Dane wysokiej jakości to takie, które wiernie odzwierciedlają rzeczywistość biznesową i pozwalają na podejmowanie trafnych decyzji.
🔑 Kluczowe punkty
- Kontekst: Jakość jest względna. Dane “historyczne” mogą być nieaktualne, ale poprawne dla historyka. Dla handlowca muszą być “świeże”.
- Wymiary DQ: Standardowe kryteria oceny jakości (opisane poniżej).
- Koszt złej jakości: Reguła 1-10-100. Zapobieganie kosztuje 1, a naprawa błędu u klienta 100$.
📚 Szczegółowe wyjaśnienie
Standardowe wymiary jakości danych (wg DAMA UK):
- Completeness (Kompletność): Czy mamy wszystkie wymagane dane? (Brak NULL-i w polach obowiązkowych).
- Uniqueness (Unikalność): Czy ten sam klient nie występuje 5 razy? (Brak duplikatów).
- Timeliness (Aktualność): Czy dane są dostępne na czas i czy reprezentują stan bieżący?
- Validity (Poprawność formalna): Czy dane są zgodne z formatem/słownikiem? (np. kod pocztowy XX-XXX).
- Accuracy (Dokładność): Czy dane są zgodne z rzeczywistością? (Czy Jan Kowalski naprawdę mieszka przy ul. Długiej, mimo że format adresu jest poprawny?).
- Consistency (Spójność): Czy dane w systemie A są takie same jak w systemie B?
💡 Przykład zastosowania
Kampania mailingowa.
- Completeness: 10% klientów nie ma adresu e-mail.
- Validity: 5% e-maili nie ma znaku
@. - Accuracy: 2% e-maili technicznie wygląda OK, ale są “martwe” (odbijają).
- Uniqueness: Jan Kowalski dostał 3 takie same maile, bo był wpisany 3 razy. Efekt: Strata pieniędzy, irytacja klientów, niska konwersja. DQ zajmuje się naprawą tego stanu.
📌 Źródła
- DAMA-DMBOK.
- “Data Quality: The Accuracy Dimension” - Jack Olson.
👽 Brudnopis
- DQ Firewall: Blokowanie złych danych już na wejściu (np. walidacja formularza na stronie www).
- Data Profiling to diagnoza, Data Quality to leczenie (reguły naprawcze/monitorujące).