🎯 Definicja
Generowanie Danych (Synthetic Data Generation) to proces tworzenia sztucznych zbiorów danych, które naśladują statystyczne właściwości danych rzeczywistych, ale nie zawierają informacji o prawdziwych osobach ani zdarzeniach. Wykorzystuje się do tego GenAI, proste algorytmy losowe lub specjalistyczne narzędzia (np. Faker).
🔑 Kluczowe punkty
- Prywatność: Idealne do testów, bo nie zawierają PII (Zero RODO risk).
- Augmentacja: Pozwala powiększyć mały zbiór treningowy dla ML.
- Edge Cases: Pozwala symulować rzadkie błędy, które na produkcji zdarzają się raz na rok.
📚 Szczegółowe wyjaśnienie
Sposoby generowania:
- Rule-based: “Wylosuj imię z listy A, nazwisko z listy B”. (Tanie, szybkie).
- Model-based (GenAI): “Stwórz realistyczną historię choroby pacjenta z cukrzycą”. (Drogie, ale uwzględnia korelacje między polami, np. leki pasują do diagnozy).
Dobre dane syntetyczne muszą zachować Utility (być użyteczne analitycznie) i Privacy (być nieodwracalne do oryginału).
💡 Przykład zastosowania
Bank chce przetestować nowy system wykrywania fraudów. Nie może użyć prawdziwych danych klientów na środowisku testowym (bezpieczeństwo). Generuje 1 milion syntetycznych transakcji, w tym 5000 “fraudów” o specyficznych wzorcach (np. wypłata w Meksyku 5 min po wypłacie w Polsce). System testowy uczy się na tym wykrywać te wzorce.
📌 Źródła
- “Synthetic Data for Deep Learning” (Arxiv).
👽 Brudnopis
- Gartner przewiduje, że do 2030 większość danych używanych w AI będzie syntetyczna.
- Narzędzia: SDV (Synthetic Data Vault), Gretel.ai, Mostly AI.