🎯 Definicja

Pretrained model (model wstępnie wytrenowany) to model sztucznej inteligencji, który został wcześniej nauczony na dużym zbiorze danych i może być używany bezpośrednio lub dostosowany do nowego zadania. Pretrenowanie pozwala przekształcić ogólną wiedzę modelu w konkretną funkcję — oszczędzając czas, moc obliczeniową i zasoby potrzebne na trening od zera.

🔑 Kluczowe punkty

Pretrained model to model “startowy”, który już nauczył się uniwersalnych zależności/patternów.
Jest podstawą dla technik takich jak transfer learning i fine-tuning.
Znajduje zastosowanie w NLP, CV, audio, bioinformatyce i innych dziedzinach.
Może być używany „as-is” (zero-shot) lub dostosowany do konkretnego zadania (fine-tuned).
Przykłady: BERT, GPT-2/3/4, ResNet, T5, CLIP, Vision Transformer (ViT).

📚 Szczegółowe wyjaśnienie

Jak działa pretrenowanie?

Model jest trenowany na dużej i zróżnicowanej bazie danych (np. Wikipedia, ImageNet).
Uczy się podstawowych reprezentacji — np. składni języka, obiektów wizualnych.
Gotowy model można:
- wykorzystać bez modyfikacji (zero-shot)
- dostroić na mniejszych danych specyficznych dla danego problemu (fine-tune)

Zastosowania i korzyści

Korzyść	Opis
Oszczędność zasobów	Mniej danych, mocy obliczeniowej i czasu do osiągnięcia dobrego wyniku
Wyższa dokładność	Model korzysta z wiedzy ogólnej zdobytej podczas pretrenowania
Uniwersalność	Możliwość ponownego użycia w wielu dziedzinach
Rozwinięte ekosystemy	Dostępność gotowych modeli z repozytoriów (Hugging Face, TensorFlow Hub, PyTorch Hub)

Przykłady popularnych modeli

NLP: BERT, RoBERTa, GPT, T5, DistilBERT
Computer Vision: ResNet, EfficientNet, CLIP, ViT
Multimodalność: GPT-4V, Flamingo, Gato
Mowa/audio: Wav2Vec, Whisper
Bioinformatyka: AlphaFold, ProtBert

💡 Przykład zastosowania

Zamiast trenować model do klasyfikacji maili jako „spam” lub „nie-spam” od zera, inżynier ML korzysta z pretrained modelu BERT dostosowanego do języka polskiego (herBERT) i wykonuje fine-tuning na niewielkim zestawie z oznaczonymi wiadomościami e-mail. Model uzyskuje wysoką skuteczność przy znacznie mniejszych zasobach treningowych.

📌 Źródła

https://huggingface.co/models
https://pytorch.org/hub/
Google AI Blog: https://ai.googleblog.com/
Stanford CS224N Notes - Transfer Learning

👽 Brudnopis

pretrained = bazowy model na wielkich danych → bazowe rozumienie
foundation model vs pretrained = skala / uniwersalność
fine-tuning – dostosowanie do tasku (few-shot/zero-shot możliwe)
transformer: pretraining na zadaniach masked LM, next-sentence prediction
ekosystem: huggingface, tensorflow hub, torch hub
Wtf: można trenować własny pretrained (np. w wizji, genomice) jeśli masz dane
pretrained ≠ frozen — może być dostrajany lub użyty „zamrożony” jako featurizer

Quartz 4

Explorer

Pretrained models