🎯 Definicja

Pretrained model (model wstępnie wytrenowany) to model sztucznej inteligencji, który został wcześniej nauczony na dużym zbiorze danych i może być używany bezpośrednio lub dostosowany do nowego zadania. Pretrenowanie pozwala przekształcić ogólną wiedzę modelu w konkretną funkcję — oszczędzając czas, moc obliczeniową i zasoby potrzebne na trening od zera.

🔑 Kluczowe punkty

  • Pretrained model to model “startowy”, który już nauczył się uniwersalnych zależności/patternów.
  • Jest podstawą dla technik takich jak transfer learning i fine-tuning.
  • Znajduje zastosowanie w NLP, CV, audio, bioinformatyce i innych dziedzinach.
  • Może być używany „as-is” (zero-shot) lub dostosowany do konkretnego zadania (fine-tuned).
  • Przykłady: BERT, GPT-2/3/4, ResNet, T5, CLIP, Vision Transformer (ViT).

📚 Szczegółowe wyjaśnienie

Jak działa pretrenowanie?

  1. Model jest trenowany na dużej i zróżnicowanej bazie danych (np. Wikipedia, ImageNet).
  2. Uczy się podstawowych reprezentacji — np. składni języka, obiektów wizualnych.
  3. Gotowy model można:
    • wykorzystać bez modyfikacji (zero-shot)
    • dostroić na mniejszych danych specyficznych dla danego problemu (fine-tune)

Zastosowania i korzyści

KorzyśćOpis
Oszczędność zasobówMniej danych, mocy obliczeniowej i czasu do osiągnięcia dobrego wyniku
Wyższa dokładnośćModel korzysta z wiedzy ogólnej zdobytej podczas pretrenowania
UniwersalnośćMożliwość ponownego użycia w wielu dziedzinach
Rozwinięte ekosystemyDostępność gotowych modeli z repozytoriów (Hugging Face, TensorFlow Hub, PyTorch Hub)

Przykłady popularnych modeli

  • NLP: BERT, RoBERTa, GPT, T5, DistilBERT
  • Computer Vision: ResNet, EfficientNet, CLIP, ViT
  • Multimodalność: GPT-4V, Flamingo, Gato
  • Mowa/audio: Wav2Vec, Whisper
  • Bioinformatyka: AlphaFold, ProtBert

💡 Przykład zastosowania

Zamiast trenować model do klasyfikacji maili jako „spam” lub „nie-spam” od zera, inżynier ML korzysta z pretrained modelu BERT dostosowanego do języka polskiego (herBERT) i wykonuje fine-tuning na niewielkim zestawie z oznaczonymi wiadomościami e-mail. Model uzyskuje wysoką skuteczność przy znacznie mniejszych zasobach treningowych.

📌 Źródła

👽 Brudnopis

  • pretrained = bazowy model na wielkich danych → bazowe rozumienie
  • foundation model vs pretrained = skala / uniwersalność
  • fine-tuning – dostosowanie do tasku (few-shot/zero-shot możliwe)
  • transformer: pretraining na zadaniach masked LM, next-sentence prediction
  • ekosystem: huggingface, tensorflow hub, torch hub
  • Wtf: można trenować własny pretrained (np. w wizji, genomice) jeśli masz dane
  • pretrained ≠ frozen — może być dostrajany lub użyty „zamrożony” jako featurizer