🎯 Definicja
Strukturyzacja danych to proces zamiany ” chaotycznego tekstu” na “uporządkowane tabelki”.
Przykład: Masz PDF z fakturą (Tekst). Chcesz mieć Excela z kolumnami: Kwota, Data, Sprzedawca. To jest strukturyzacja.
🔑 Kluczowe punkty
- Unstructured → Structured: 80% danych w firmach to dane niestrukturalne (emaile, PDFy, rozmowy). Strukturyzacja pozwala je analizować.
- Narzędzia: Regex (dla prostych wzorców), NLP (dla tekstu), OCR (dla skanów), LLM (najnowsze i najskuteczniejsze).
📚 Szczegółowe wyjaśnienie
Dane dzielimy na:
- Strukturalne: Tabele SQL, CSV.
- Półstrukturalne: JSON, XML, Wypełnione Formularze.
- Niestrukturalne: Email: “Cześć, kupiłem 5 bułek za 10 zł”.
Strukturyzacja (Parsing) to zamiana trójki w jedynkę.
Dawniej pisało się RegExy:
(\d+) zł. Dziś daje się to do LLM: “Wyciągnij kwotę i produkt jako JSON”.
💡 Przykład zastosowania
Firma ubezpieczeniowa dostaje tysiące skanów dowodów rejestracyjnych. Robienie tego ręcznie to koszmar. Pipeline:
- OCR (Czyta obrazek → Tekst).
- LLM (Czyta tekst → JSON
{vin: "...", make: "..."}). - Baza Danych (Insert JSON). Teraz można filtrować: “Pokaż wszystkie Toyoty”.
📌 Źródła
- “Unstructured Data Analysis” guides.
👽 Brudnopis
- Najważniejszy trend: LLM jako uniwersalny parser. Zamiast pisać 100 reguł if-else dla różnych faktur, dajesz jeden prompt.