🎯 Definicja

DataFrame to podstawowa struktura danych używana w analizie danych, reprezentująca uporządkowaną dwuwymiarową tabelę danych (podobną do arkusza kalkulacyjnego lub tabeli SQL), gdzie kolumny mają nazwy i typy danych. DataFrames są wykorzystywane m.in. w bibliotekach takich jak Pandas (Python) i PySpark (Spark) w celu wydajnej manipulacji i analizy danych.

🔑 Kluczowe punkty

  • 🔢 Struktura 2D: dane są zorganizowane w wiersze i kolumny, z indeksami i metadanymi.
  • ⚙️ Obsługuje różne typy danych: liczby całkowite, zmiennoprzecinkowe, tekst, daty itd.
  • 🔄 Umożliwia operacje: filtrowanie, grupowanie, sortowanie, dołączanie (join), pivot, analizę statystyczną.
  • 📊 Stanowi podstawę dla zadań ETL, eksploracji danych, wizualizacji, przetwarzania wsadowego.

📚 Szczegółowe wyjaśnienie

DataFrame w Pandas (Python)

Pandas DataFrame to jedna z najczęściej używanych struktur danych w analizie danych w języku Python. Idealnie nadaje się do pracy z danymi CSV, Excel, SQL, JSON.

import pandas as pd
 
data = {
    'Imię': ['Anna', 'Tomek', 'Kasia'],
    'Wiek': [28, 34, 25]
}
 
df = pd.DataFrame(data)
print(df)
ImięWiek
0Anna28
1Tomek34
2Kasia25

Przykładowe operacje:

  • df['Wiek'].mean() – średnia wieku
  • df[df['Wiek'] > 30] – filtrowanie
  • df.groupby('Imię').count() – grupowanie

DataFrame w PySpark (Spark)

W rozproszonym przetwarzaniu danych (Big Data), PySpark oferuje Spark DataFrame – analogiczną strukturę, która pozwala na równoległe operacje na dużych zbiorach danych.

from pyspark.sql import SparkSession
 
spark = SparkSession.builder.appName("Example").getOrCreate()
data = [('Anna', 28), ('Tomek', 34), ('Kasia', 25)]
 
df = spark.createDataFrame(data, ['Imię', 'Wiek'])
df.show()
ImięWiek
Anna28
Tomek34
Kasia25

Operacje na DataFrame Spark:

  • df.filter(df['Wiek'] > 30) – filtrowanie
  • df.groupBy('Imię').count() – grupowanie
  • df.select('Imię') – wybór kolumn

💡 Przykład zastosowania

Analityk danych przygotowuje dzienny raport sprzedaży. Używa Pandas do wczytania arkusza Excel, przekształca dane w DataFrame, wylicza średnią wartość koszyka, filtruje produkty premium i eksportuje wynik do nowego pliku CSV. W środowisku big data – te same operacje realizuje w PySpark, ale skaluje je na miliony rekordów dziennie.

📌 Źródła

👽 Brudnopis

  • DataFrame = struktura tabelaryczna: kolumny + indeks
  • Pandas: nano- i mikro-dane (od setek do milionów rekordów)
  • PySpark: big data (GB–PB, rozproszone środowisko, Spark SQL)
  • Dobre do ETL, analizy, ML, raportowania
  • Możliwość konwersji do JSON, tabel SQL, CSV, Parquet, Arrow itp.