🎯 Definicja
Instruction Tuned LLM to model językowy, który przeszedł dodatkowy trening (Fine-Tuning), aby nauczyć się wykonywać polecenia, a nie tylko dokańczać tekst. To różnica między “surowym” GPT-3 (który po pytaniu “Jaka jest stolica Polski?” mógłby dopisać “A jaka jest stolica Niemiec?”), a ChatGPT (który odpowie “Warszawa”).
🔑 Kluczowe punkty
- Base Model: Umie mówić, ale nie umie słuchać poleceń.
- Instruct Model: Nauczony na parach (Instrukcja → Odpowiedź).
- Zastosowanie: Chatboty, asystenci, automatyzacja zadań.
📚 Szczegółowe wyjaśnienie
Proces tworzenia modelu Instruct:
- Bierzemy Base Model (np. Llama 2 Base), który przeczytał cały internet.
- Tworzymy zbiór danych treningowych składający się z tysięcy poleceń (“Napisz maila”, “Przetłumacz”, “Strość”) i wzorowych odpowiedzi.
- Robimy Supervised Fine-Tuning (SFT).
- Często dodajemy RLHF (Reinforcement Learning from Human Feedback), aby model był “grzeczny” i bezpieczny.
💡 Przykład zastosowania
Prompt: “Wyjaśnij grawitację 5-latkowi”.
- Base Model: Może zacząć cytować podręcznik fizyki albo wygenerować listę pytań egzaminacyjnych o grawitacji.
- Instruct Model: “Wyobraź sobie, że Ziemia przytula wszystko do siebie…” (Rozumie intencję “wyjaśnij” i ograniczenie “5-latkowi”).
📌 Źródła
- “Training language models to follow instructions with human feedback” (Ouyang et al., 2022 - paper o InstructGPT).
👽 Brudnopis
- Obecnie większość modeli, z którymi mają styczność użytkownicy (Chat), to modele Instruction Tuned. Modele Base używają głównie inżynierowie do specyficznego douczania.