🎯 Definicja
Pandas to najpopularniejsza biblioteka Pythona do analizy danych (“Excel for Python”). Pozwala wczytywać pliki (CSV, Excel, SQL), przetwarzać je w tabelach (zwanych DataFrame) i zapisywać wyniki.
🔑 Kluczowe punkty
- DataFrame: Główny obiekt. To po prostu tabela w pamięci RAM komputera.
- Wszechstronność: Czyta prawie każdy format danych.
- Szwajcarski Scyzoryk: Filtrowanie, grupowanie, łączenie (Join), czyszczenie danych, proste wykresy.
📚 Szczegółowe wyjaśnienie
Pandas jest świetny do danych, które mieszczą się w pamięci RAM (np. do 1GB). Dla większych zbiorów (Big Data) używa się Spark lub Polars. Pod maską Pandas używa NumPy, więc jest szybki w operacjach matematycznych.
💡 Przykład zastosowania
Analityk dostaje plik sprzedaz.csv.
import pandas as pd
df = pd.read_csv('sprzedaz.csv')
# Pokaż sprzedaż wg miasta
raport = df.groupby('Miasto')['Kwota'].sum()
raport.to_excel('wynik.xlsx')Cztery linijki kodu zastępują godzinę klikania w Excelu.
📌 Źródła
- Pandas Documentation.
- “Python for Data Analysis” (Wes McKinney - twórca Pandas).
👽 Brudnopis
- Uwaga: Pandas jest “memory hungry”. Jeśli masz plik 10GB, Pandas prawdopodobnie “wywali” Twój laptop. Wtedy użyj
chunksizealbo przesiądź się na DuckDB/Polars.