🎯 Definicja
Pretrained model (model wstępnie wytrenowany) to model sztucznej inteligencji, który został wcześniej nauczony na dużym zbiorze danych i może być używany bezpośrednio lub dostosowany do nowego zadania. Pretrenowanie pozwala przekształcić ogólną wiedzę modelu w konkretną funkcję — oszczędzając czas, moc obliczeniową i zasoby potrzebne na trening od zera.
🔑 Kluczowe punkty
- Pretrained model to model “startowy”, który już nauczył się uniwersalnych zależności/patternów.
- Jest podstawą dla technik takich jak transfer learning i fine-tuning.
- Znajduje zastosowanie w NLP, CV, audio, bioinformatyce i innych dziedzinach.
- Może być używany „as-is” (zero-shot) lub dostosowany do konkretnego zadania (fine-tuned).
- Przykłady: BERT, GPT-2/3/4, ResNet, T5, CLIP, Vision Transformer (ViT).
📚 Szczegółowe wyjaśnienie
Jak działa pretrenowanie?
- Model jest trenowany na dużej i zróżnicowanej bazie danych (np. Wikipedia, ImageNet).
- Uczy się podstawowych reprezentacji — np. składni języka, obiektów wizualnych.
- Gotowy model można:
- wykorzystać bez modyfikacji (zero-shot)
- dostroić na mniejszych danych specyficznych dla danego problemu (fine-tune)
Zastosowania i korzyści
Korzyść | Opis |
---|---|
Oszczędność zasobów | Mniej danych, mocy obliczeniowej i czasu do osiągnięcia dobrego wyniku |
Wyższa dokładność | Model korzysta z wiedzy ogólnej zdobytej podczas pretrenowania |
Uniwersalność | Możliwość ponownego użycia w wielu dziedzinach |
Rozwinięte ekosystemy | Dostępność gotowych modeli z repozytoriów (Hugging Face, TensorFlow Hub, PyTorch Hub) |
Przykłady popularnych modeli
- NLP: BERT, RoBERTa, GPT, T5, DistilBERT
- Computer Vision: ResNet, EfficientNet, CLIP, ViT
- Multimodalność: GPT-4V, Flamingo, Gato
- Mowa/audio: Wav2Vec, Whisper
- Bioinformatyka: AlphaFold, ProtBert
💡 Przykład zastosowania
Zamiast trenować model do klasyfikacji maili jako „spam” lub „nie-spam” od zera, inżynier ML korzysta z pretrained modelu BERT dostosowanego do języka polskiego (herBERT
) i wykonuje fine-tuning na niewielkim zestawie z oznaczonymi wiadomościami e-mail. Model uzyskuje wysoką skuteczność przy znacznie mniejszych zasobach treningowych.
📌 Źródła
- https://huggingface.co/models
- https://pytorch.org/hub/
- Google AI Blog: https://ai.googleblog.com/
- Stanford CS224N Notes - Transfer Learning
👽 Brudnopis
- pretrained = bazowy model na wielkich danych → bazowe rozumienie
- foundation model vs pretrained = skala / uniwersalność
- fine-tuning – dostosowanie do tasku (few-shot/zero-shot możliwe)
- transformer: pretraining na zadaniach masked LM, next-sentence prediction
- ekosystem: huggingface, tensorflow hub, torch hub
- Wtf: można trenować własny pretrained (np. w wizji, genomice) jeśli masz dane
- pretrained ≠ frozen — może być dostrajany lub użyty „zamrożony” jako featurizer